Vừa qua, “Hội nghị khoa học quốc tế lần thứ 14 về hệ thống cơ sở dữ liệu và thông tin thông minh (The 14th Asian Conference on Intelligent Information and Database Systems (ACIIDS)) đã chấp nhận đăng tải bài báo khoa học có tựa đề “Enhancing Vietnamese Question Generation with Reinforcement Learning”. Đây là nghiên cứu của Vũ Nguyễn - sinh viên khoa Khoa học và Kỹ thuật thông tin, Trường ĐH Công nghệ Thông tin ĐHQG-HCM.
Công trình nghiên cứu đầu tiên cho bài toán tạo sinh tự động câu hỏi
Chia sẻ về ý tưởng thực hiện bài báo, Vũ Nguyễn cho biết: “Con người luôn có xu hướng đặt câu hỏi cho mọi vấn đề trong cuộc sống. Việc đặt các câu hỏi giúp con người tập trung vào vấn đề được nhắc đến và không vướng phải nhiều thông tin bên lề. Hiểu được vấn đề đó, chúng tôi đi đến nghiên cứu bài toán ngược với bài toán đọc hiểu văn bản truyền thống: tạo sinh tự động câu hỏi trên văn bản tiếng Việt”.
Nghiên cứu về việc đọc hiểu văn bản đã và đang là một bài toán nhận được sự quan tâm từ nhiều cộng đồng nghiên cứu. Các bài toán thường đưa ra một đoạn văn bản cùng với câu hỏi về các thông tin trong văn bản, máy sẽ đảm nhiệm việc trả lời. Tuy nhiên, việc đặt câu hỏi đó đang là một quá trình thủ công, do con người tự đặt ra và có thể tốn nhiều thời gian khi họ phải đọc để biết được câu hỏi nên đặt ra như thế nào.
“Theo tìm hiểu của mình, đây là công trình nghiên cứu đầu tiên cho bài toán tạo sinh tự động câu hỏi trên các bộ dữ liệu đọc hiểu văn bản tiếng Việt. Mình mong muốn tạo ra được một bài toán cơ sở, thúc đẩy các bài toán phát triển tính ứng dụng về sau” - Vũ Nguyễn thông tin
Được biết, công trình “Enhancing Vietnamese Question Generation with Reinforcement Learning” thuộc lĩnh vực “Xử lý ngôn ngữ tự nhiên”, cụ thể là thuộc lĩnh vực tạo sinh văn bản. Công trình giải quyết vấn đề tạo câu hỏi, một công đoạn mà hiện nay đang được thực hiện thủ công. Các câu hỏi được đặt ra sẽ dựa trên ngữ cảnh của từ khóa được đưa vào. Việc máy đọc hiểu được từ khóa, sau đó tạo sinh được câu hỏi dựa trên từ khóa và ngữ cảnh của từ khóa đó trong văn bản là những gì công trình đang nghiên cứu.
Nói cụ thể hơn, ví dụ như khi chúng ta đưa vào một đoạn văn sau: “Trước khi phẫu thuật hôm 10/10, bé đã được các bác sĩ tại Trung tâm Y tế huyện Anh Sơn tiến hành các xét nghiệm cần thiết, nội soi tai mũi họng phát hiện hai đường rò luân nhĩ.” với “hai đường rò luân nhĩ” là từ khóa. Máy tính sẽ đọc và đặt ra được câu hỏi là: “Phát hiện điều gì khi nội soi tai mũi họng của bệnh nhân?”. Có thể thấy đây là một câu hỏi được đặt ra sát nghĩa, và khi đọc vào câu hỏi có thể hiểu được câu hỏi muốn hướng đến nội dung gì trong văn bản.
Bàn về mức hữu dụng của công trình trong việc đặt câu hỏi, Vũ Nguyễn cho biết: “Khó để nói về tỷ lệ hoặc số lượng câu hỏi được đánh giá là “dùng được” do máy tạo ra. Phần này sẽ phụ thuộc khá nhiều vào bộ dữ liệu mà chúng ta huấn luyện máy trên đó. Ví dụ như đối với bộ dữ liệu mà mình thực nghiệm, việc đặt các câu hỏi mang ý nghĩa sẽ phụ thuộc vào việc đối tượng được dùng cho việc đặt câu hỏi thuộc dạng nào? Các câu hỏi thuộc dạng “What” có thể đạt được 7/10 câu hỏi mang ý nghĩa và hiểu được, tuy nhiên với dạng câu hỏi “Who” có thể kém hơn, có trường hợp chỉ đạt được 1/10”.
Hoàn thiện từ những thất bại
Để được đăng trên ACIIDS, Vũ Nguyễn cùng giảng viên hướng dẫn là ThS. Nguyễn Văn Kiệt đã tốn gần 300 ngày để hoàn thiện công trình. “Mình bắt đầu quá trình thực hiện từ tháng 03/2021, ý tưởng được đưa ra khá ngẫu hứng, khi mà cả mình và thầy đều muốn làm một đề tài mới lạ. Mình bắt đầu từ việc tìm hiểu, nghiên cứu các công trình liên quan. Song song quá trình đó, tìm hiểu các kiến thức chuyên môn phục vụ cho hướng phát triển của bài toán này. Tiếp đó, việc đi vào thực nghiệm những gì đã nghiên cứu. Và cuối cùng là đưa những nghiên cứu của chúng mình vào một bài báo” - Vũ Nguyễn nói.
Trên thực tế, đây không phải bản công bố công trình đầu tiên mà Vũ Nguyễn và ThS. Nguyễn Văn Kiệt đưa ra. Trước đó, cặp thầy trò đã có hai lần thất bại. Từ những thất bại đó, Vũ Nguyễn đã rút ra được kinh nghiệm cho bản thân, những sai sót trong lập luận cũng như công trình trước đó chưa đạt được hiệu quả cao, để đến cuối cùng, Vũ Nguyễn cũng đã đạt được một thành công nhất định.
Trong gần 10 tháng thực hiện công trình, Vũ Nguyễn đã phải đối mặt với nhiều trở ngại. “Đầu tiên phải kể đến việc đây là một đề tài mới trên tiếng Việt. Đã có các công trình nghiên cứu trước đó, nhưng chỉ được xây dựng cho tiếng Anh, tiếng Trung. Vì vậy, lượng tài liệu tham khảo của chúng mình khá hạn chế. Hơn nữa, tiếng Việt còn là một ngôn ngữ ít tài nguyên, khó xử lý cho các bài toán về xử lý ngôn ngữ tự nhiên. Tiếp đến phải nói đến trở ngại từ chính bản thân mình. Mình không phải một người có xuất phát điểm và nền tảng về khoa học máy tính cũng như khoa học dữ liệu. Việc tiếp cận một vấn đề mới, được đánh giá là khó này đã mang lại nhiều thách thức cho bản thân mình” - Vũ Nguyễn tâm sự.
Tuy nhiên, nhờ vào sự hỗ trợ từ ThS. Nguyễn Văn Kiệt, nhà trường cùng nhóm nghiên cứu NLP@UIT, cùng với đó là gia đình và bạn bè luôn ủng hộ, cổ vũ, Vũ Nguyễn đã hoàn thiện công trình mà bản thân ấp ủ.
Theo Vũ Nguyễn, công trình này là cơ sở cho các ứng dụng về sau của bài toán. Chàng sinh viên khoa Khoa học và Kỹ thuật thông tin mong muốn mở rộng việc ứng dụng bài toán, không cần thiết phải thủ công lựa chọn một từ khóa làm đầu vào, máy tính có thể tự động hóa quá trình đọc hiểu văn bản bằng cách tự đặt câu hỏi và trả lời những câu hỏi đặt ra đó. Chính vì vậy, Vũ Nguyễn đặt mục tiêu tiếp tục nghiên cứu và phát triển bài toán, góp phần xây dựng nền công nghệ Việt Nam phát triển hơn.
Phượng An