Siêu AI của Facebook sẽ được chuẩn hoá tiếng Việt

Thuỳ An-Thứ sáu, ngày 14/03/2025 11:41 GMT+7

(Ảnh: scmp)

bangdatally.xyz - Llama (Large Language Model Meta AI), mô hình ngôn ngữ lớn được phát triển bởi Meta sẽ được "dạy" tiếng Việt chuẩn hoá, minh bạch và có đạo đức.

Sáng 14/3, Meta, phối hợp cùng Trung tâm Đổi mới sáng tạo Quốc gia (NIC) đã khởi động Chương trình Thách thức Đổi mới sáng tạo 2025.

Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Sứ mệnh ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam. ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.

Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.

Theo đó, Meta và Deloitte đã công bố cuốn cẩm nang dành cho khu vực công mang tên "Đổi mới sáng tạo trong khu vực công ở Châu Á - Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama".

Cẩm nang này sẽ cung cấp lộ trình giúp các cơ quan chính phủ tích hợp hiệu quả công nghệ AI mã nguồn mở. Sự kết hợp giữa các sáng kiến này hướng đến mục tiêu xây dựng một chiến lược AI đồng bộ tại Việt Nam, mang lại lợi ích cho cả khu vực công và tư nhân.

Siêu AI của Facebook sẽ được chuẩn hoá tiếng Việt - Ảnh 1.

Ông Sarim Aziz, Giám đốc Chính sách Công tại Meta

"Thông qua hỗ trợ các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam tiếp cận những mô hình AI mã nguồn mở như Llama cùng các nguồn lực phù hợp với bối cảnh địa phương, chúng tôi mong muốn giúp họ phát huy tối đa tiềm năng và thúc đẩy các sáng kiến AI mang tính ứng dụng cao, phù hợp với nhu cầu của Việt Nam", ông Sarim Aziz, Giám đốc Chính sách Công tại Meta cho biết.

Ông Trần Việt Hùng, Nhà sáng lập & CEO, Tổ chức AI for Vietnam cho biết, ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI.

"ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động tuần cầu có tính đến ngữ cảnh của tiếng Việt", ông Hùng nói.

Chuẩn hoá tiếng Việt

Nói vể việc chuẩn hoá tiếng Việt cho Llama, PGS. TS Nguyễn Trường Thắng, Viện trưởng Viện Công nghệ Thông tin, Viện Hàn Lâm và Khoa học Công nghệ Việt Nam - một trong những đối tác của ViGen cho biết, AI là những "cậu bé" 5,6 tuổi do các tập đoàn công nghệ tạo ra có khả năng suy nghĩ hấp thụ thông tin nhanh. Và Llama là một "cậu bé" do Meta tạo ra giống như ChatGPT cho Open AI và Gemini của Google. 

Tuy nhiên với việc được xây dựng trên nền tảng mã nguồn mở, khác với ChatGPT, chúng ta có thể hiểu cách hoạt động cũng dạy và huấn luyện cho Llama. Song Llama hiện chủ yếu được huấn luyện bằng tiếng Anh, tiếng Pháp (99%), và rất ít tiếng việt.

"Với việc được tạo ra từ mã nguồn mở giúp, chúng ta có thể tiếp cận và huấn luyện để biến Llama trở thành một "cậu bé" người Việt nhiều hơn", ông Thắng nói và nhấn mạnh, dữ liệu để dạy và huấn luyện Llama là dữ liệu sạch, tiếng Việt chuẩn hoá, có đạo đức và minh bạch.

Siêu AI của Facebook sẽ được chuẩn hoá tiếng Việt - Ảnh 2.

Llama sẽ được chuẩn hoá tiếng Việt

Nói thêm về việc lựa chọn Llama cho ViGen, ông Bùi Thanh Minh, Phó Tổng Giám Đốc phụ trách phát triển sản phẩm, Giám đốc Đổi mới sáng tạo, MISA - một đối tác khác của dự án nhấn mạnh tầm quan trọng của bảo mật. Theo ông Minh, với nền tảng mã nguồn mở, mô hình như Llama hoàn toàn có thể triển khai trên server của chúng ta, dữ liệu hoàn toàn trong tầm kiểm soát khi sử dụng. Tính bảo mật cao hơn rất nhiều những mô hình dưới dạng Cloud (truyền dữ liệu ra các server bên ngoài).

Siêu AI của Facebook sẽ được chuẩn hoá tiếng Việt - Ảnh 3.

Ông Bùi Thanh Minh, Phó Tổng Giám Đốc phụ trách phát triển sản phẩm, Giám đốc Đổi mới sáng tạo, MISA

Ngoài ra với Llama, cũng cho phép người sử dụng tuỳ biến và tinh chỉnh để phù hợp với công việc của mình. Bên cạnh đó là sự ổn định ít bị ảnh hưởng bởi tốc độ của Internet. Cuối cùng là được sự hỗ trợ từ nguồn lực lớn của của Meta.

Llama (Large Language Model Meta AI) là một mô hình ngôn ngữ lớn được phát triển bởi Meta (công ty mẹ của Facebook). Phiên bản đầu tiên của Llama được ra mắt vào quý đầu năm 2023.

Llama được thiết kế để hiểu và tạo ra ngôn ngữ tự nhiên giống con người, với các phiên bản có số lượng tham số khác nhau, từ 7 tỷ đến 70 tỷ tham số.

Một trong những điểm đặc biệt của Llama là tính chất mã nguồn mở, cho phép các nhà phát triển và nhà nghiên cứu truy cập và sử dụng mô hình này một cách tự do, thậm chí cho mục đích thương mại. Điều này tạo điều kiện cho cộng đồng công nghệ phát triển và tùy chỉnh các ứng dụng AI dựa trên Llama theo nhu cầu cụ thể.


* Mời quý độc giả theo dõi các chương trình đã phát sóng của Đài Truyền hình Việt Nam trên TV OnlineVTVGo!

TIN MỚI

    X

    ĐANG PHÁT

    Bản tin thời tiết chào buổi sáng 3 phút trước