Nghiên cứu khoa học > Các nhóm NCKH > Xử lý ngôn ngữ tự nhiên

Xử lý Ngôn ngữ Tự nhiên

Nhóm nghiên cứu chúng tôi thuộc Trung tâm Ngôn ngữ học Tính toán (Computational Linguistics Center) của Trường Đại học Khoa học tự nhiên, ĐHQG-HCM, một trung tâm nghiên cứu liên ngành giữa ngành Ngôn ngữ học (linguistics) và ngành Khoa học Máy tính (Computer Science), chuyên về xử lý tự động tiếng Việt và các ngôn ngữ khác có liên quan bằng cách xây dựng và khai thác các nguồn tài nguyên có liên quan đến tiếng Việt. Đặc biệt, nhóm chúng tôi chuyên sâu về mảng khai thác tài nguyên kho tàng văn bản cổ viết bằng chữ Hán Nôm bằng cách nhận dạng (OCR), dịch âm từ chữ Hán-Nôm sang chữ quốc ngữ và dịch nghĩa bằng từ ngữ tiếng Việt đương đại. Nhóm chúng tôi đã công bố hơn 200 bài báo trong các tạp chí và kỷ yếu hội nghị trong và ngoài nước liên quan đến các nghiên cứu nói trên. Kết quả phần mềm đã được triển khai ứng dụng thực tế tại website của Trung tâm (https://tools.clc.hcmus.edu.vn/).

Chủ đề nghiên cứu

Tài nguyên ngôn ngữ
Xử lý văn bản

Thành viên

PGS.TS. Đinh Điền (Chuyên môn: Tin học, Ngôn ngữ học)
TS. Nguyễn Hồng Bửu Long (Tin học)
TS. Lương An Vinh (Tin học)
TS. Nguyễn Thị Như Điệp (Ngôn ngữ học)
TS. Nguyễn Thị Hồng Nhung (Ngôn ngữ học)
ThS, NCS. Lê Thị Thuý Hằng
HVCV. Thái Hoàng Lâm
SV. Dương Thị An

Đề tài nghiên cứu tiêu biểu

Chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ (đề tài cấp Tp.HCM)
Dịch máy Hàn – Việt (hợp tác với SYSTRAN)
Từ điển OALD Anh – Anh – Viet (hợp tác với Oxford University Press (OUP))
Từ điển điện tử Kim Từ Điển (hợp tác với công ty KimTuDien)

Các hoạt động hợp tác có thể thực hiện

Xây dựng và khai thác từ điển, ngữ liệu tiếng Việt, ngữ liệu song ngữ/song song đa ngữ, các công cụ xử lý văn bản (Phân loại văn bản, Độ tương đồng văn bản, Kiểm lỗi chính tả, Kiểm lỗi ngữ pháp, Đánh giá độ khó của văn bản, Phong cách văn bản, Phân tích tâm lý trong văn bản, Dịch tự động, Tóm tắt văn bản, Khai khoáng văn bản/ý kiến, Phát hiện đạo văn…), các ứng dụng để dạy tiếng Việt cho người nước ngoài, dạy ngoại ngữ cho người Việt, các phần mềm cho người khiếm thị…

Tham khảo

Link demo, website show thông tin nghiên cứu: www.clc.hcmus.edu.vn
Website Trung tâm: https://tools.clc.hcmus.edu.vn/
BÁO SÀI GÒN GIẢI PHÓNG: AI phát huy di sản Hán Nôm (sggp.org.vn): https://www.sggp.org.vn/ai-phat-huy-di-san-han-nom-post706003.html

Công bố khoa học (tiêu biểu)

1. Duc Huu Trinh, Trinh Le-Phuong Ngo, Long H.B. Nguyen and Dien Dinh

“Applying Cross-view Training for Dependency Parsing in Vietnamese”, ICIC Express Letters, Part B: Applications, Volume 13, Number 3, March 2022 (SCOPUS)

2. Binh Le, Binh Nguyen, Long Nguyen and Dien Dinh

“PhraseAttn: Dynamic Slot Capsule Networks for Phrase Representation in Neural Machine Translation”, Journal of Intelligent & Fuzzy Systems, vol. 42, no. 4, pp. 3871-3878, 2022 (SCI-E)

3. Long Nguyen, Nghi Pham, Duc Le, Duy Vu, Dien Dinh

“Moment Matching Training for Neural Machine Translation: An Empirical Study”, Journal of Intelligent and Fuzzy Systems, vol. 43, no. 3, pp. 2633-2645, 2022 (SCI-E)

4. Dien Dinh & Nguyen Le Thanh

“Vietnamese Sentence Paraphrase Identification using Pre-trained Model and Linguistic Knowledge”, International Journal of Advanced Computer Science and Applications(IJACSA), Volume 12 Issue 8. http://dx.doi.org/10.14569/IJACSA.2021.0120891 (ESCI)

5. Long Hong Buu Nguyen, Viet H. Pham, Dien Dinh

“Improving Neural Machine Translation with AMR Semantic Graphs”, Mathematical Problems in Engineering, vol. 2021, Article ID 9939389, 12 pages, 2021. https://doi.org/10.1155/2021/9939389 (SCI-E)

6. Tu Dinh Tran, Minh Nhat Ha, Long Hong Buu Nguyen & Dien Dinh

“Improving Multi-Grained Named Entity Recognition with BERT and Focal Loss”, ICIC Express Letters, Part B: Applications, Volume 12, Number 3, March 2021, DOI: 10.24507/icicelb.12.01.92 (SCOPUS)

7. Dien Dinh, Phuong Nguyen & Long Hong Buu Nguyen

“Transliterating Nôm Scripts into Vietnamese National Scripts using Statistical Machine Translation” International Journal of Advanced Computer Science and Applications(IJACSA), 12(2), 2021. (ESCI)

8. Long Hong Buu Nguyen, Hung Duong Minh, Dien Dinh & Thanh Le Manh

“Improving Neural Machine Translation with POS Tags”, ICIC Express Letters, Part B: Applications, Volume 12, Number 1, January 2021, DOI: 10.24507/icicelb.12.01.91 (SCOPUS)

9. Long Nguyen, Viet Pham, Hung Minh, Dien Dinh & Thanh Manh

“Integrating AMR Semantic Graphs to Convolutional Neural Machine Translation”, ICIC Express Letters, Part B: Applications, Volume 12, Number 2, January 2021, DOI: 10.24507/icicelb.12.02.133 (SCOPUS)

10. Nhi-Thao Tran, Minh-Quoc Nghiem, Nhung Thi Hong Nguyen, Ngan Luu-Thuy Nguyen, Nam Van Chi & Dien Dinh

“ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization”, Lang Resources & Evaluation, vol. 54, no. 4, pp. 893–920, Dec. 2020, doi: 10.1007/s10579-020-09495-4 (SCI-E)

11. An-Vinh Luong, Diep Nguyen & Dien Dinh

“Building a Corpus for Vietnamese Text Readability Assessment in The Literature Domain”, Universal Journal of Educational Research, 8(10), 4996 - 5004. DOI: 10.13189/ujer.2020.081073 (SCOPUS)

12. An-Vinh Luong, Diep Nguyen, Dien Dinh & Thuy Bui

“Assessing Vietnamese Text Readability using Multi-Level Linguistic Features”, International Journal of Advanced Computer Science and Applications (IJACSA), 11(8), 100–111. http://dx.doi.org/10.14569/IJACSA.2020.0110814 (ESCI)

13. An-Vinh Luong, Diep Nguyen & Dien Dinh

“Examining the Part-of-speech Features in Assessing the Readability of Vietnamese Texts”, Acta Linguistica Asiatica, 10(2), 127–142. https://doi.org/10.4312/ala.10.2.127-142 (SCOPUS)

14. Long Ly, Quang Nguyen, Long Hong Buu Nguyen & Dinh Dien

“Integrating Structural Dependencies in Neural Machine Translation Using Graph Convolutional Networks”, ICIC Express Letters. Part B, Applications : An International Journal of Research and Surveys, 10(12), 1067–1075. https://doi.org/10.24507/icicelb.10.12.1067 (SCOPUS)

15. Le Thanh Nguyen & Dinh Dien

“English–Vietnamese cross-language paraphrase identification using hybrid feature classes”, Journal of Heuristics. doi:10.1007/s10732-019-09411-2 (SCI-E)

16. Le Ngoc Tan, Sadat Fatiha, Menard Lucie & Dinh Dien

“Low-Resource Machine Transliteration Using Recurrent Neural Networks”, ACM Transactions on Asian and Low-Resource Language Information Processing, 18(2), 1–14. doi:10.1145/3265752 (SCI-E)

17. Điệp Nguyễn, An-Vinh Lương & Điền Đinh

“Affection of the part of speech elements in Vietnamese text readability”, Acta Linguistica Asiatica, 9(1), 105-118. https://doi.org/10.4312/ala.9.1.105-118 (SCOPUS)

18. Phuoc Tran, Dien Dinh, Tấn Lê & Long Hong Buu Nguyen

“Linguistic-Relationships-Based Approach for Improving Word Alignment”, ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP), 2017. DOI: 10.1145/3133323 (SCI-E)

19. Phuoc Tran, Dien Dinh & Hien Thanh Nguyen

“Improving Word Alignment Based on Named Entity”, International Journal of Innovative Computing, Information and Control – ICIC Express Letters, Part B: Applications, Volume 8, Issue 7, July 2017. DOI: 10.24507/icicelb.08.07.1121 (SCOPUS)

20. Phuoc Tran, Dien Dinh & Long Hong Buu Nguyen

“Word Re-Segmentation in Chinese-Vietnamese Machine Translation”, ACM Trans. Asian Low-Resour. Lang. Inf. Process. 16, 2, Article 12 (November 2016), 22 pages. DOI: https://doi.org/10.1145/2988237 (SCI-E)

21. Long Hong Buu Nguyen, Dien Dinh & Phuoc Tran

“An Approach to Construct a Named Entity Annotated English-Vietnamese Bilingual Corpus”, ACM Trans. Asian Low-Resour. Lang. Inf. Process. 16, 2, Article 9 (October 2016), 17 pages. DOI: https://doi.org/10.1145/2990191 (SCI-E)

22. Phuoc Tran, Dien Dinh & Hien Nguyen

“A Character-Level-Based and Word-Level-Based Approach for Chinese-Vietnamese Machine Translation”, Computational Intelligence and Neuroscience, Volume 2016 (2016), Article ID 9821608, DOI: 10.1155/2016/9821608 (SCI-E)