☘️Báo cáo viên: PGS.TS. Đinh Điền

- Thời gian tổ chức: 08:30 - 10:00, ngày 09/12/2023 (Thứ Bảy)

- Chủ đề: The role of training corpora in Vietnamese NLP (Vai trò các kho ngữ liệu huấn luyện trong Xử lý ngôn ngữ tự nhiên tiếng Việt)

Gần đây, các ChatBot AI như ChatGPT, Bard, Bing,…  đã tác động sâu sắc đến nhiều lĩnh vực trong cuộc sống và trở thành công cụ đắc lực cho con người trong rất nhiều bài toán liên quan đến ngôn ngữ tự nhiên, như: hỏi-đáp, tìm kiếm thông tin, tạo văn bản, tóm tắt văn bản, dịch văn bản,… cho hầu hết các ngôn ngữ thông dụng trên thế giới, trong đó có tiếng Việt của chúng ta.

Tuy nhiên, với một số bài toán mang tính đặc thù của VN, như: ngôn ngữ, lịch sử, văn hóa, địa lý, chính trị, pháp luật, … của Việt Nam thì các ChatBot AI nói trên trả lời chưa được chính xác. Nguyên nhân chính là do các ChatBot AI đó chưa được huấn luyện trên các kho ngữ liệu phù hợp với các bài toán đặc thù nói trên.

Nhằm khắc phục các điểm hạn chế đó, chúng ta cần nghiên cứu cách xây dựng các kho ngữ liệu có chất lượng theo đúng những tiêu chí của ngành Ngôn ngữ học ngữ liệu (corpus linguistics), đáp ứng với các đặc thù của Việt Nam và dùng để huấn luyện trên các mô hình học tiên tiến của thế giới hiện nay. Từ đó, chúng ta có thể xây dựng hoặc cải tiến các ChatBot AI hiện nay để chúng có thể thực hiện tốt các bài toán đặc thù của VN. Ví dụ: Dịch văn bản cổ Hán-Nôm sang chữ Quốc ngữ, tìm hiểu về lịch sử (khám phá quy luật giữa các biến cố trong lịch sử, như: nhà vua lên ngôi, băng hà; xuất hiện sao chổi; động đất, hạn hán, bão lụt, dịch bệnh, nạn đói, chiến tranh, bạo loạn, khởi nghĩa,…), về địa lý (Hoàng Sa, Trường Sa,…), về y học dân tộc (các bài thuốc cổ truyền,...),…


����Các bạn sinh viên quan tâm có thể đăng ký qua link: https://forms.gle/Jot3ctTKnWuY6iB6A 

- Địa điểm tổ chức: Phòng F.109 - Cơ sở 227 Nguyễn Văn Cừ, P4, Q5

- Số lượng: 50 sinh viên 

- Thời hạn đăng kí: Từ nay đến 15h00 Thứ Sáu, ngày 08/12/2023

����Lưu ý: Link đăng ký sẽ đóng sớm hơn khi đã đủ số lượng người tham dự


Thông tin người phụ trách: Nguyễn Trần Thục Uyên (Email: nttuyen@fit.hcmus.edu.vn)