Nhóm nghiên cứu về Học máy Đa phương thức (Multi-modal Machine Comprehension), viết tắt là MMC Group, là nhóm nghiên cứu tập trung vào các bài toán khai thác và xử lý các thông tin đa phương thức. MMC Group quy tụ các nhà nghiên cứu từ nhiều lĩnh vực khác nhau trong Khoa học máy tính như Xử lý ngôn ngữ tự nhiên, Xử lý âm thanh, và Xử lý hình ảnh từ trong và ngoài nước, cũng như từ các nhà nghiên cứu trong công nghiệp. Mục tiêu chính của nhóm là nhằm phát triển các hệ thống xử lý đa phương thức để giải quyết các bài toán phổ biến hiện nay.

Chủ đề nghiên cứu

 • Mô hình hóa tri thức đa phương thức như hình ảnh, văn bản, âm thanh,...
 • Mô hình dự đoán dựa trên dữ liệu đa phương thức: văn bản, hình ảnh, âm thanh,...
 • Mô hình AI giải thích được

Thành viên

 • TS. Nguyễn Tiến Huy (Trưởng nhóm) - Khoa CNTT, Trường ĐH. KHTN
 • TS. Lê Thanh Tùng - Khoa CNTT, Trường ĐH. KHTN
 • PGS. TS. Nguyễn Lê Minh - JAIST, Japan
 • TS. Phó Ngọc Đăng Khoa - Trusting Social
 • ThS. Nguyễn Trần Duy Minh - Khoa CNTT, Trường ĐH. KHTN
 • CN. Nguyễn Đức Anh - Khoa CNTT, Trường ĐH. KHTN

Đề tài nghiên cứu tiêu biểu

 • Mô hình ngôn ngữ hình ảnh ít đối tượng cho phân loại câu hỏi hình ảnh dành cho người khiếm thị (Đề tài cấp Trường KHTN: 09/2021)
 • Dự đoán khả năng trả lời câu hỏi hình ảnh dành cho người khiếm thị bằng mô hình Residual Attention (Đề tài cấp Trường KHTN: 03/2022)

Công bố khoa học

 1. Tung Le, Huy Tien Nguyen, and Minh Le Nguyen. 2021. “Multi Visual and Textual Embedding on Visual Question Answering for Blind People.” Neurocomputing 465:451–64. doi: https://doi.org/10.1016/j.neucom.2021.08.117.

 2. Tung Le, Khoa Pho, Thong Bui, Huy Tien Nguyen, and Minh Le Nguyen. 2022. “Object-Less Vision-Language Model on Visual Question Classification for Blind People.” Pp. 180–187 in Proceedings of the 14th International Conference on Agents and Artificial Intelligence - Volume 3: ICAART, SciTePress.

 3. Duy-Minh Nguyen-Tran, Tung Le, Minh Le Nguyen and Huy Tien Nguyen, 2022. “Bi-directional Cross-Attention Network on Vietnamese Visual Question Answering”, in Proceedings of the 36th Pacific Asia Conference on Language, Information and Computation (PACLIC).

 4. Duy-Minh Nguyen-Tran, T. Le, K. Pho, M. Le. Nguyen, and Huy Tien Nguyen, 2022, “RVT-Transformer: Residual Attention in Answerability Prediction on Visual Question Answering for Blind People”, In Proceedings of the 14th International Conference on Computational Collective Intelligence (ICCCI).

 5. Anh Duc Nguyen, Tung Le, and Huy Tien Nguyen, 2022. “Combining Multi-vision Embedding in Contextual Attention for Vietnamese Visual Question Answering”, in Pacific-Rim Symposium on Image and Video Technology (PSIVT)Tung Le, Huy Tien Nguyen, and Minh Le Nguyen. 2021. “Vision And Text Transformer For Predicting Answerability On Visual Question Answering.” Pp. 934–138 in 2021 IEEE International Conference on Image Processing (ICIP).

 6. Tung Le, Thong Bui, Huy Tien Nguyen, and Minh Le Nguyen. 2021. “Bi-Direction Co-Attention Network on Visual Question Answering for Blind People.” Pp. 335–442 in Fourteenth International Conference on Machine Vision (ICMV 2021). Vol. 12084.