Skip to content Skip to navigation

Nhóm sinh viên UIT có bài báo được đăng tại một trong những tạp chí thuộc xếp hạng cao nhất SCIE-Q1

Vừa qua, nhóm sinh viên trường ĐH Công nghệ Thông tin, ĐHQG-HCM đã có bài báo được chấp nhận tại Tạp chí IEEE Access - một trong những tạp chí thuộc xếp hạng cao nhất SCIE-Q1.

Đó là nhóm sinh viên gồm Bùi Cao Doanh (sinh viên khoa Khoa học máy tính) và Đặng Thị Thanh Trúc (sinh viên khoa Hệ thống thông tin). Được biết, bài báo EAES: Effective Augmented Embedding Spaces for Text-Based Image Captioning thuộc lĩnh vực Thị giác máy tính, có kết hợp với lĩnh vực Xử lý ngôn ngữ. Bài toán nhóm giải quyết đó là sinh câu mô tả cho ảnh dựa trên văn bản.

“Trong bài báo, chúng mình giải quyết bài toán mô tả ảnh dựa trên văn bản. Đây là một hướng nghiên cứu mới trên bài toán mô tả ảnh, mới được bắt đầu nghiên cứu từ năm 2020. Nhận ra rằng cách biểu diễn ảnh như thế nào sẽ ảnh hưởng trực tiếp đến hiệu suất mô hình, do đó chúng mình đưa ra một cách tiếp cận biểu diễn kết hợp mang tên EAES. Qua các thử nghiệm trên bộ dữ liệu TextCaps, cách tiếp cận của chúng mình đạt được hiệu suất đo được trên BLEU4 là 20.21% và CIDEr là 85.78%, cao hơn lần lượt 1,31% và 4,78% so với phương pháp cơ sở M4C-Captioner. Hơn nữa, cách tiếp cận cũng cho kết quả cạnh tranh với các phương pháp khác trên các độ đo METEOR, ROUGE-L và SPICE” - Bùi Cao Doanh thông tin.

Nói rõ ràng hơn, mô tả ảnh dựa trên văn bản có nghĩa là xây dựng một mô hình sinh câu mô tả nội dung bức ảnh, tuy nhiên câu mô tả đầu ra có đề cập tới các văn bản tự nhiên xuất hiện trong ngữ cảnh, ví dụ: chữ trên bảng quảng cáo, banner, biển thông báo… 

Phương pháp biểu diễn kết hợp EAES là một cách biểu diễn ảnh bằng cách kết hợp các đặc trưng: đặc trưng đối tượng thị giác phát hiện được trong ảnh (người, xe cộ, trái bóng, …). đặc trưng lưới của ảnh và đặc trưng của các đối tượng văn bản (scene text). Bên cạnh đó, một đặc trưng tương quan vị trí giữa các đối tượng thị giác và các đối tượng văn bản cũng được nhúng vào mô hình để cải thiện độ chính xác.

Chia sẻ về ý tưởng thực hiện bài báo trên, Cao Doanh cho biết: “Vào cuối năm 2021, mình có đọc và tìm hiểu về bài toán sinh câu mô tả ảnh dựa trên văn bản. Mình bắt đầu thích bài toán này và tranh thủ đọc nhiều các công trình tiên tiến hiện nay để dần dần tích lũy ý tưởng, và có trao đổi với giảng viên hướng dẫn để tiến hành thực nghiệm. Vào cuối năm đó, ý tưởng này được chấp nhận đăng tại hội nghị NICS’21, sau này mở rộng thực nghiệm và được đăng trên tạp chí IEEE Access”.

Tuy nhiên, quá trình hiện thực hóa và mở rộng thực nghiệm của nhóm nghiên cứu không hề diễn ra suôn sẻ. Bởi vì quá trình thực nghiệm diễn ra liên tục lần mà chưa đạt được kết quả, Cao Doanh nhiều lần mất kiên nhẫn. May mắn, Cao Doanh đã nhận được sự giúp đỡ của hai giảng viên hướng dẫn là T.S Nguyễn Tấn Trần Minh Khang và Th.S Võ Duy Nguyên cùng cộng sự Thanh Trúc. Bên cạnh đó các ý tưởng cũng được trao đổi với các anh, các bạn trong nhóm UIT-Together để xác thực. Nhờ vậy, bài báo đã đạt được kết quả vô cùng nổi trội.

Chia sẻ với UITNews, Cao Doanh khẳng định:”Nếu có cơ hội, mình sẽ tiếp tục theo đuổi bài toán này, vì hiện tại có nhiều ý tưởng chưa được cài đặt và còn rất nhiều hứa hẹn trong tương lai”.

Phượng An