Vừa qua, hai bạn sinh viên khoa Khoa học Dữ liệu là Nguyễn Hiếu Nghĩa và Võ Trần Đông Dương đã có bài báo được chấp nhận xuất bản tại Tạp chí Information Fusion (chỉ số Impact Factor 17) - đây được xem là 1 trong những tạp chí có chỉ số ảnh hưởng cao nhất của Khoa học máy tính. Bài báo mang tên OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese.
Theo illinois University Library, Tạp chí Information Fusion xếp hạng thứ 4 trong lĩnh vực Computer Science. Dựa trên Scimago Institutions Rankings, tạp chí này xếp thứ 2 trên thế giới trong lĩnh vực xử lý tín hiệu (Signal Processing) và xếp thứ 5 trên thế giới về hệ thống thông tin (Information System).
Tóm tắt bài báo: Học đa thể thức (Multimodal Learning) là chủ đề nghiên cứu mới và cũng là bài toán nghiên cứu của tương lai. Trong bài toán này, máy tính được yêu cầu sử dụng thông tin từ nhiều nguồn đầu vào để thực thi một tác vụ nào đó. Các nguồn đầu vào rất đa dạng: có thể là hình ảnh, âm thành, hoặc văn bản. Bài toán này đã được cộng đồng nghiên cứu đề xuất từ những năm 2015 thông qua bài toán đầu tiên của học đa thể thức là hỏi đáp tự động dựa trên hình ảnh. Tuy nhiên, do tính chất phức tạp của bài toán và sự hạn chế về mặt kỹ thuật ở thời điểm bấy giờ, học đa thể thức nói chung và hỏi đáp tự động dựa trên hình ảnh nói riêng đã trở thành bài toán khó chưa thể tiếp cận. Mãi cho đến năm 2018, học đa thể thức mới thật sự được cộng đồng nghiên cứu quay lại để ý và khai thác. Mặc dù việc nghiên cứu bài toán này trên tiếng Anh rất sôi nổi, tuy nhiên trên tiếng Việt thì lại chưa có dấu hiệu bắt đầu. Nhằm xây dựng nên những nền tảng cơ bản cho việc nghiên cứu bài toán học đa thể thức trên tiếng Việt, chúng tôi đã xây dựng bộ dữ liệu OpenViVQA, thông qua đó đầu tiên định nghĩa bài toán Open-ended VQA cho tiếng Việt. Chúng tôi đã tiến hành thí nghiệm, đánh giá và chứng minh bài toán mà chúng tôi đặt ra rất phức tạp và thách thức, dẫu bài toán đòi hỏi những khả năng thông thường của con người. Bên cạnh đó, chúng tôi đề xuất ra 03 phương pháp mới và đạt kết quả state-of-the-art trên bộ dữ liệu OpenViVQA, đặt nền móng cho các thí nghiệm sau đó trên bộ dữ liệu này.
Với lần thử sức này, cả hai bạn Nghĩa và Dương đều có cho mình những trải nghiệm đáng tự hào và những bài học đáng nhớ. “Trong lần nghiên cứu này, mình đã học được cách mạo hiểm đón nhận những thách thức lớn, học được tinh thần dám nghĩ dám làm. Bên cạnh đó đề tài này cũng giúp mình hoàn thiện rất nhiều kỹ năng viết lách cũng như tư duy phản biện và thiết kế thí nghiệm, và những yếu tố khác cần có để có thể chinh phục những tạp chí/hội nghị top đầu trên thế giới”, bạn Nghĩa cho hay.
Để có được thành tựu như hiện tại, các bạn đều trải qua rất nhiều khó khăn trong việc tiếp cận nghiên cứu với một bài toán rất mới. Nghĩa chia sẻ: “Đây là bài toán rất mới đối với tiếng Việt và khi triển khai làm đề tài này, nhóm mình có thể được xem như là nhóm đặt những viên gạch đầu tiên cho việc nghiên cứu bài toán Open-ended VQA trên tiếng Việt. Và việc chấp nhận làm người đầu tiên kéo theo rất nhiều khó khăn khác, tiêu biểu là về phương pháp thí nghiệm khi mà nhóm phải tự đề xuất ra một phương pháp hoàn toàn mới cho bài toán mới này”.
Và tất nhiên, Nhà trường và thầy cô UIT luôn đồng hành cùng các bạn trong những lần thử sức này. “Nhóm đã được sự hỗ trợ từ thầy Kiệt, phó trưởng Khoa Khoa học và Kỹ thuật Thông tin, những lời góp ý sâu sắc của cô Ngân - Phó hiệu trưởng nhà trường. Cả hai thầy cô đã tận tình chỉ ra cái chưa tốt, cái cần phải cải thiện của nhóm để đề tài của nhóm đi đến thành công như ngày hôm nay”, Nghĩa cho biết.
Thu Hoài