“ViVQA: A modern Vietnamese Visual Question Answering for SOTA solutions” là công trình khoa học do nhóm sinh viên gồm Trần Quốc Khánh, Nguyễn Trọng Ân, Dương Văn Bình và Lê Trần Hoài Ân thuộc ngành Khoa học dữ liệu (khoa Khoa học & Kỹ thuật thông tin) thực hiện. Đây cũng là công trình khoa học đã xuất sắc đoạt giải Ba trong cuộc thi Makerthon và huy chương đồng Giải thưởng Thiết kế - Chế tạo - Ứng dụng năm 2021.
Đây là công trình thuộc lĩnh vực Trí tuệ nhân tạo, là sự kết hợp của Thị giác máy tính và Xử lý ngôn ngữ tự nhiên. Khi phát triển thành công, hệ thống do nhóm thực hiện có thể giúp những người kém may mắn mất đi ánh sáng từ đôi mắt có thể nhận biết được những thông tin xung quanh mình qua việc đặt các câu hỏi và nhận về đáp án cụ thể từ hệ thống.
*Chào các bạn, điều gì đã giúp nhóm hình thành ý tưởng cho công trình nghiên cứu trên?
Nhóm chúng mình là những bạn sinh viên có niềm đam mê với khoa học thích tìm tòi học hỏi những điều mới lạ. Được sự gợi ý và hướng dẫn của thầy Nguyễn Văn Kiệt với đề tài Visual Question Answering, nhóm cảm thấy đề tài này rất thú vị và có tính ứng dụng cao nên cả nhóm bắt đầu nghiên cứu thực hiện đề tài này cho ngôn ngữ tiếng Việt.
Ngoài mục tiêu đóng góp cho cộng đồng nghiên cứu khoa học, mục đích to lớn của các công trình nghiên cứu khoa học đó là đóng góp những điều tích cực cho xã hội. Việc phát triển mô hình trên bộ dữ liệu nhằm mục đích phát triển các mô hình này cho việc ứng dụng thực tế và xây dựng các giải pháp giúp ích cho cộng đồng những người khiếm thị.
*Quá trình thực hiện dự án diễn ra như thế nào thưa bạn Nguyễn Trọng Ân?
Chúng mình là một nhóm bạn thân, chơi chung với nhau từ năm nhất đến nay cũng hơn 3 năm. Có nhiều ý tưởng và sở thích nghiên cứu khá giống nhau nên khi nhận được đề tài này thì cả nhóm bắt tay vào làm luôn.
Dự án này được thực hiện trong vòng 12 tháng gồm nhiều công đoạn có thể như xác định hướng đi cho đề tài, tìm hiểu các công trình nghiên cứu liên quan, xây dựng bộ dữ liệu, sau đó tiến hành thực nghiệm và huấn luyện các mô hình trên bộ dữ liệu đã được xây dựng, và cuối cùng là quá trình kiểm định, đánh giá và phát triển mô hình.
*Thưa bạn Dương Văn Bình, điều gì là trở ngại lớn nhất của nhóm trong quá trình thực hiện dự án?
Một thách thức lớn nhất đối với nhóm là mất nhiều thời gian để hiện thực bộ dữ liệu bởi vì muốn hệ thống hỏi đáp đạt độ chính xác cao thì yêu cầu bộ dữ liệu khá lớn trong khi đó nguồn nhân lực và tài nguyên còn hạn chế.
Bên cạnh đó, tính mới của dự án cũng là một thử thách lớn. Hỏi đáp tự động trên ảnh (VQA) là một lĩnh vực vẫn còn mới ở Việt Nam. Chính vì vậy, tài liệu tham khảo cũng như tài nguyên các bộ dữ liệu về lĩnh vực này chủ yếu trên tiếng Anh. Tìm kiếm và nghiên cứu tài liệu bằng tiếng Việt đã “ngốn” không ít thời gian của nhóm mình.
Tuy nhiên, nhờ sự đồng hành và hướng dẫn tận tình trong suốt quá trình học tập, nghiên cứu và hoàn thiện các tác phẩm dự thi của Th.S Nguyễn Văn Kiệt. Đồng thời, nhóm tác giả xin chân thành gửi lời cảm ơn đến Trường Đại học Công nghệ Thông tin - ĐHQG TP.HCM, Khoa Khoa học và Kỹ thuật thông tin và Phòng nghiên cứu Xử lý Ngôn ngữ Tự nhiên UIT (NLP@UIT) đã tạo điều kiện cho chúng em hoàn thành nghiên cứu này.
*Việc nhận huy chương đồng giải thưởng Thiết kế - Chế tạo - Ứng dụng năm 2021 và giải ba cuộc thi Makerthon lần 5 tạo động lực gì cho nhóm?
Các cuộc thi và giải thưởng kể trên đều là những cuộc thi, giải thưởng uy tín nhằm mục đích tìm kiếm, tuyên dương các tác giả, sản phẩm có tính ứng dụng cao về khoa học kỹ thuật và tuyển chọn các sản phẩm tiêu biểu tham gia Liên hoan Tuổi trẻ sáng tạo toàn quốc năm 2021. Việc vinh dự nhận được giải thưởng là nguồn động viên to lớn đến các thành viên trong nhóm, thành quả đạt được trong quá trình nghiên cứu giúp cho nhóm có sự tự tin để phát triển hơn nữa những dự án có ý nghĩa và có tính ứng dụng thực tiễn.
Trong tương lai nhóm sẽ tiếp tục cải thiện thêm về bộ dữ liệu ViVQA cũng như là tăng quy mô và sự đa dạng của dữ liệu song song với đó là việc tạo ra các sản phẩm giúp ích cho xã hội.
*Cảm ơn các bạn đã dành thời gian cho UITNews.
Thụy Vân