Vừa qua, Sở Khoa học và Công nghệ TP.HCM vừa tổ chức Hội đồng nghiệm thu nhiệm vụ khoa học và công nghệ “Xây dựng hệ thống chuyển tự tự động văn bản chữ Nôm sang chữ Quốc ngữ”. Đây là nhiệm vụ do trường Đại học Khoa học Tự nhiên (ĐHQG-HCM) chủ trì thực hiện, PGS.TS Đinh Điền - Phó Trưởng bộ môn Công nghệ Tri thức khoa CNTT làm chủ nhiệm nhiệm vụ.
Nhóm thực hiện đã tập trung dịch một chiều từ chữ Nôm sang chữ Quốc ngữ. Theo đó, nhóm đã xây dựng Tự điển chữ Nôm – Quốc ngữ (bản chất là một tập hợp có hệ thống các Nôm tự được giải nghĩa Quốc ngữ) nhằm tập trung giải nghĩa của từng tự, cung cấp các thông tin sâu về mặt ngôn ngữ học. Số lượng Nôm tự rút trích được từ kho ngữ liệu chữ Nôm và các nguồn tham khảo đạt 22.264 mục tự. Sau đó, xây dựng tiếp Từ điển chữ Nôm – Quốc ngữ chứa 6.198 mục từ. Nhóm cũng xây dựng Tự điển chữ Hán – Việt chứa 26.330 mục tự và Từ điển chữ Hán – Việt chứa 66.450 mục từ.
Nhóm thực hiện đã xây dựng thành công mô hình ngôn ngữ và mô hình dịch trên những ngữ liệu thu thập được, đồng thời xây dựng website hỗ trợ chuyển tự tự động từ chữ Nôm sang chữ Quốc ngữ (đã nộp hồ sơ đăng ký Quyền tác giả). Theo đó, kết quả của nhiệm vụ có thể được ứng dụng để dịch tài liệu chữ Nôm về y học, văn học, lịch sử, địa lý…, góp phần bảo tồn và phát huy các giá trị văn hóa truyền thống của dân tộc.
Nguồn bài viết: Trung tâm Thông tin và Thống kê KH&CN (CESTI) link