“Đừng chọn UIT nếu bạn chưa sẵn sàng trở thành người DẪN ĐẦU”I Đoàn Long An - Chàng sinh viên UIT có bài báo được đăng tại Hội nghị Quốc tế về Xử lý Ngôn ngữ Châu Á
Vừa qua, một bài báo của sinh viên UIT đã được đăng trên IALP 2022. Chủ nhân của bài báo là bạn Đoàn Long An, sinh viên K2019 ngành Khoa học Dữ liệu, trường Đại học Công nghệ Thông tin, ĐHQG-HCM. Bài báo có tựa đề tiếng anh là Improving Sentiment Analysis By Emotion Lexicon Approach on Vietnamese Texts.
Xuất phát từ nhu cầu thiết yếu của con người trong việc sử dụng MXH cũng như xu hướng sử dụng mạng xã hội để giao tiếp thông qua những bài post, tin tức online, Long An đã lồng ghép vấn đề này vào việc phân tích cảm xúc. Cùng với sự quyết tâm của bản thân và sự giúp đỡ nhiệt tình của thầy cô tại trường, nam sinh gốc Quảng Nam đã chinh phục được IALP 2022.
Động lực nào để bạn thực hiện bài báo này?
Hiện nay, sử dụng mạng xã hội cũng được xem là nhu cầu thiết yếu của con người trong thời đại Công nghệ số lên ngôi. Con người ngày càng có xu hướng sử dụng mạng xã hội để giao tiếp, trao đổi thông tin, chia sẻ cảm xúc thông qua những bài post, tin tức online. Tuy nhiên ở một môi trường không được kiểm soát chặt chẽ này, nơi mà mỗi cá nhân đều có thể tự do thể hiện “cái tôi” một cách thoải mái nhất, thì những nội dung không lành mạnh tiềm ẩn và xuất hiện là điều không thể tránh khỏi.
Bạn nhận thấy vấn đề môi trường mạng xã hội gần đây như thế nào?
Ngày nay, mạng xã hội phát triển, những tác động tích cực hoặc tiêu cực của nó đều có tác động lớn đến xã hội. Nếu người dùng biết sử dụng MXH một cách hữu ích, lành mạnh thì hiệu quả đem lại sẽ rất cao. Ngược lại, MXH cũng chứa nhiều nội dung độc hại như bình luận tiêu cực, ganh ghét, tin giả, nội dung không phù hợp tiêu chuẩn cộng đồng,... Nhiều bình luận có nội dung đả kích một cá nhân nào đó làm ảnh hưởng xấu đến sức khỏe tinh thần của người dùng và thậm chí cả những người kiểm duyệt các nội dung xấu đó.
Cảm xúc là chủ đề chính trong bài báo được đăng tải. Vậy ý tưởng này xuất phát từ đâu?
Thực ra mỗi chúng ta khi tham gia sử dụng, trò chuyện trên các nền tảng mạng xã hội thường khó kiềm chế cảm xúc khi gặp những bình luận chửi mắng, lăng mạ… Đôi khi chỉ cần những vấn đề nhỏ nhặt xảy ra trên MXH sẽ khiến chúng ta bộc lộ bản chất “anh hùng bàn phím”. Cũng vì một phần ngôn ngữ tiếng Việt là một ngôn ngữ giàu ý nghĩa, một câu có thể đem đến cho chúng ta rất nhiều những khái niệm khác nhau, một bình luận khi chúng ta đọc trong tâm thế cởi mở, vui vẻ sẽ luôn mang lại tích cực hơn là khi chúng ta cau có, khó chịu. Thế nên một công cụ để có thể nhắc nhở chúng ta, ví dụ như: “Bình luận của bạn có thể gây tổn thương cho người khác”, thì chúng ta sẽ có thể nhìn nhận lại vấn đề một cách khách quan hơn. Những vấn đề đó đã thôi thúc mình luôn học hỏi, phát triển những công cụ, phương pháp có thể giải quyết được, hoặc đơn giản là góp một phần trong công cuộc xử lý ngôn ngữ tiếng Việt, giữ gìn bản sắc mà tiếng Việt mang lại.
Bài báo đã đề ra giải pháp gì cho những vấn đề trên?
Từ những vấn đề đó, chúng mình đã luôn mày mò, thử nghiệm các phương pháp xử lý, có thể là đã được sử dụng cho các ngôn ngữ khác, hoặc chưa từng được sử dụng, để tìm ra được những phương pháp xử lý hiệu quả cho ngôn ngữ Việt Nam. Vì vậy, bài báo của chúng mình đã đề xuất phương pháp tăng cường khả năng phân tích cảm xúc bằng cách tiếp cận từ vựng cảm xúc, ứng dụng các kỹ thuật tiên tiến nhằm giải quyết bài toán phân tích cảm xúc trên mạng xã hội, hướng đến một môi trường ảo lành mạnh, an toàn. Các phương pháp mới được xây dựng, cải tiến từ các công trình đi trước có hiệu quả cho xử lý ngôn ngữ nói chung và xử lý ngôn ngữ tiếng Việt nói riêng.
Trong lúc thực hiện bài báo, bạn gặp những khó khăn gì?
Khó khăn lớn nhất mà mình và thầy Lưu Thanh Sơn gặp phải có lẽ là tìm kiếm tài liệu hướng dẫn. Vì đề tài nghiên cứu khá mới lạ, vẫn chưa được thực hiện trên tiếng Việt, thậm chí ngay cả các ngôn ngữ khác thì cũng còn rất hạn chế. Vì vậy, cả thầy và trò đã thử nghiệm nhiều lần để kiểm chứng kết quả và đưa vào bài báo. Bên cạnh đó thì các bộ dữ liệu cảm xúc cho tiếng Việt được lựa chọn để thực nghiệm rất được quan tâm từ các anh chị, thầy cô đi trước, nên có rất nhiều bài báo, về các phương pháp xử lý, các mô hình xây dựng cho kết quả rất tốt trên các bộ dữ liệu trước đó. Điều đó tạo cho mình một áp lực là phải cải tiến phương pháp sao cho tốt nhất, hiệu quả hơn các công trình đi trước. Và may mắn là kết quả thành phẩm của thầy và trò đều đạt được như mong đợi.
Qua đó, Long An cũng gửi lời cảm ơn sâu sắc đến thầy cô, anh chị và Nhà trường đã giúp đỡ anh thực hiện bài báo thành công
Mình xin chân thành cảm ơn quý thầy cô của Trường Đại học Công nghệ Thông tin nói chung và quý thầy cô của Khoa Khoa học và Kỹ thuật Thông tin nói riêng đã tận tâm, nhiệt huyết truyền đạt cho mình những kiến thức hữu ích cũng như các kỹ năng cần thiết để có thể đạt được những thành công nhất định sau này. Mình xin gửi lời biết ơn sâu sắc đến thầy Lưu Thanh Sơn – Giảng viên Khoa Khoa học và Kỹ thuật Thông tin, thầy đã giúp đỡ mình không những trong quá trình thực hiện bài báo, mà còn là một chặng đường đầy nhiệt huyết từ khi thầy dạy những môn đầu tiên. Trong quá trình thực hiện bài báo, thầy đã luôn động viên, khích lệ để mình có đủ tự tin vươn mình ra một chân trời mới. Một người anh cũng đã giúp mình rất nhiều trong quá trình học tập cũng như nghiên cứu khoa học, là anh Trần Quốc Khánh, người anh luôn đem những kinh nghiệm tích lũy đi trước truyền đạt lại cho mình. Mình cũng xin gửi lời cảm ơn đến gia đình và bạn bè đã luôn bên cạnh động viên, khuyến khích, giúp đỡ và đưa ra những lời khuyên bổ ích.
Thu Hoài