Bộ dữ liệu tiếng Việt ViGen dự kiến
chứa kiến thức "từ mẫu giáo đến đại học", cho phép xây dựng mô hình
AI với trình độ tương đương sinh viên tốt nghiệp.
"Các mô hình AI đào tạo ra từ
bộ dữ liệu này tương đương một bạn mới tốt nghiệp đại học, để từ đó huấn luyện
thêm và có thể làm nhiều công việc khác nhau", ông Trần Việt Hùng, đại diện
dự án ViGen, thông báo tiến độ việc xây dựng bộ dữ liệu, ngày 5/8 tại Hà Nội.
Ông Trần Việt Hùng, đại diện dự
án ViGen, chia sẻ về dự án. Ảnh: Lưu Quý
ViGen là dự án xây dựng bộ dữ liệu
tiếng Việt mã nguồn mở do Trung tâm Đổi mới sáng tạo quốc gia NIC kết hợp phát
triển cùng nhiều tổ chức, trong đó có AI for Vietnam, Meta.
Theo bà Nguyễn Thu Thảo, Giám đốc
chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, ý tưởng
ra đời cuối năm ngoái, khi nhà khoa học trưởng về AI của Meta là Yann
LeCun tới Việt Nam và gặp Bộ trưởng Khoa học và Công nghệ Nguyễn Mạnh
Hùng. Bộ trưởng khi đó đề nghị Meta hỗ trợ Việt Nam xây dựng bộ cơ sở dữ liệu
tiếng Việt "tốt nhất có thể". Đến tháng 3, dự án ViGen được công
bố.
Sau gần 5 tháng triển khai, đại
diện dự án cho biết theo lộ trình dự kiến, đến tháng 10, ViGen sẽ ra mắt bản thử
nghiệm đầu tiên với Bộ dữ liệu tiền huấn luyện (Pretraining Dataset) nói trên.
"Khi ra bản đầu tiên, ViGen
sẽ là bộ dữ liệu tiếng Việt quy mô nhất, chứa kiến thức từ mẫu giáo đến đại học,
cho phép xây dựng các mô hình AI với trình độ tương đương sinh viên tốt nghiệp",
ông Trần Việt Hùng nói, đánh giá đây là "mục tiêu tham vọng", khi Việt
Nam đã có một số bộ dữ liệu tiếng Việt, nhưng chưa đủ bao quát kiến thức các cấp
học. Để đạt được mục tiêu đó, ông cho biết cần có sự hỗ trợ của các đơn vị cung
cấp dữ liệu tại Việt Nam.
Để thúc đẩy, dự án dự kiến ra mắt
Cổng dữ liệu mở - nơi cung cấp quyền truy cập miễn phí đến các bộ dữ liệu tiếng
Việt, đồng thời để cộng đồng có thể liên tục đóng góp dữ liệu ở nhiều thể loại
cho dự án. Để đánh giá chất lượng, ViGen đặt mục tiêu ra bản thử nghiệm
của benchmark - bộ đề kiểm tra do con người thiết kế với chuẩn mực cao nhằm
đánh giá chất lượng của mô hình. Phiên bản đầu tiên sẽ bao gồm 5 benchmark đánh
giá khả năng của các mô hình AI về Ngôn ngữ, Văn hóa, Kiến thức phổ thông, Suy
luận, Lập trình.
Theo các chuyên gia, tiếng Việt
thuộc nhóm "low-resource language", tức ngôn ngữ ít dữ liệu số hóa
trên Internet. Nhiều chatbot AI có hỗ trợ tiếng Việt như Meta AI, ChatGPT,
Gemini, nhưng trong các mô hình ngôn ngữ lớn phía sau, tài nguyên ngôn ngữ tiếng
Việt chỉ chiếm dưới 1%.
Theo ông Trần Việt Hùng, việc thiếu
bộ dữ liệu tiếng Việt chất lượng cao để đào tạo AI dẫn tới khả năng xử lý tiếng
Việt chưa tự nhiên, khiến người Việt chưa thể tận dụng thế mạnh của AI.
"Trong khi thế giới đã ứng dụng
AI mạnh mẽ ba năm nay, người Việt phần lớn vẫn coi công cụ chatbot để 'chat
chit' cho vui", ông nói, cho rằng đây là một trong các hệ quả của việc thiếu
bộ dữ liệu tiếng Việt, khiến các cá nhân, doanh nghiệp và tổ chức Việt Nam chưa
thể ứng dụng AI mạnh mẽ.
Chuyên gia từ Thung lũng Silicon
cũng đánh giá các bộ dữ liệu hiện tại thường rời rạc, thiếu tính đại diện, gây
ra rủi ro trong những lĩnh vực then chốt như giáo dục hay y tế. "Khi tạo
ra mô hình AI hỗ trợ tiếng Việt từ trong lõi một cách tự nhiên, chúng sẽ mở đường
cho các ứng dụng AI tiếng Việt đi vào mọi ngõ ngách cuộc sống, giúp năng suất
lao động tăng gấp 5-10 lần", ông nói.
Tại buổi tham vấn, một số đơn vị
về phát thanh, truyền hình cho biết sẽ đóng góp dữ liệu về âm thanh, đặc biệt từ
các đài phát thanh địa phương để tăng tính đa dạng cho bộ dữ liệu. Ngoài ra, một
trong những nguồn đào tạo dữ liệu lớn là mạng xã hội, nhưng bài toán đặt ra là
sàng lọc dữ liệu để tránh nội dung độc hại. Bên cạnh đó, các chuyên gia cũng chỉ
ra một số vấn đề cần quan tâm như vấn đề bản quyền của dữ liệu, khả năng ứng dụng
của dữ liệu này trong các lĩnh vực đặc thù, chẳng hạn trong các ứng dụng ở khu
vực công.
Giám đốc NIC Vũ Quốc Huy chia sẻ
tại cuộc họp. Ảnh: Lưu Quý
Giám đốc NIC Vũ Quốc Huy nhận định
về lâu dài, việc phát triển bộ dữ liệu cần có sự tham gia mạnh mẽ hơn của các
đơn vị khác trong việc đóng góp nguồn lực hạ tầng, dữ liệu. "Mong các đơn
vị cùng đóng góp thêm, để làm phong phú bộ dữ liệu, qua đó nâng cao chất lượng,
hiệu quả của AI tại Việt Nam", ông nói, khẳng định sẽ huy động các nguồn lực
từ nhà nước để xây dựng bộ dữ liệu tiếng Việt.
Theo lộ trình dự kiến, đến năm
2026, bộ dữ liệu ViGen sẽ tiếp tục được tinh chỉnh, đồng thời nâng cấp số
benchmark lên 10, cung cấp công cụ cho các nhà phát triển ứng dụng AI.
Theo: https://vnexpress.net/