AI Singapore giúp AI trở nên phù hợp hơn với người dùng Đông Nam Á thông qua Gemma 2
Ra mắt vào năm 2017, AI Singapore là một mạng lưới quốc gia gồm các tổ chức và viện nghiên cứu về AI, chuyên thúc đẩy sự phát triển của AI tại Singapore. Một trong các dự án của họ, SEA-LION, là một nhóm các mô hình mở mang sức mạnh của LLM đến các quốc gia Đông Nam Á (SEA) mà trước đây thế giới AI đã bỏ qua.
Nhóm nghiên cứu đứng sau SEA-LION đã chọn Gemma, một nhóm các mô hình mở hiệu quả và gọn nhẹ của Google, vì vốn từ vựng và khả năng hiểu ngôn ngữ của mô hình này, cũng như tỷ lệ kích thước/hiệu suất. Với Gemma, các nhà phát triển SEA-LION đã tạo ra một LLM mạnh mẽ, hiệu quả và dễ tiếp cận, được hàng triệu người dùng ở khu vực Đông Nam Á sử dụng hiện nay.
Thách thức
Nhóm SEA-LION nhận thấy rằng nhiều ngôn ngữ được nói ở khu vực này không được các LLM phổ biến nhất hiện nay thể hiện, điều này có nghĩa là một số khu vực và toàn bộ nhóm người dân ở đây hầu như không có quyền truy cập vào nhiều ứng dụng tiềm năng của AI. Nhóm nghiên cứu cũng nhận thấy rằng ngay cả khi các LLM phổ biến này có kiến thức cơ bản về các ngôn ngữ bản địa ở Đông Nam Á, thì các LLM này vẫn thiếu sự hiểu biết về sự khác biệt về ngôn ngữ và văn hoá mà người bản địa biết.
Như William Tjhi, trưởng bộ phận trí tuệ nhân tạo tại AI Singapore giải thích, hầu hết AI trên thế giới được xây dựng dựa trên các ngôn ngữ phương Tây và phương Đông, nghĩa là có thể bị mất nhiều nội dung trong quá trình dịch: "Cảnh quan LLM toàn cầu phát triển xung quanh hai nhóm: Bờ Tây và Trung Quốc. Những mô hình này phản ánh những quan điểm đó dựa trên các tập dữ liệu huấn luyện chúng và ngôn ngữ huấn luyện chúng".
“Trình tạo mã thông báo của Gemma hoạt động hiệu quả hơn khi được áp dụng cho các ngôn ngữ mà chúng tôi có ở khu vực của mình. Bạn có thể thấy điều đó trong kết quả. Điều này giúp cải thiện đáng kể hiệu suất của mô hình khi được huấn luyện trên mã thông báo SEA, vì trình phân tích cú pháp này tối ưu hơn so với trình phân tích cú pháp của các mô hình khác".
Giải pháp
Nhóm SEA-LION đã tạo ra một bộ LLM toàn diện, phản ánh chính xác các sắc thái, bối cảnh và sự đa dạng văn hoá của khu vực. Để xây dựng một LLM phù hợp với khả năng hiểu biết thực sự về một bộ ngôn ngữ hoàn toàn mới, nhóm nghiên cứu cần có dữ liệu huấn luyện đa dạng, chất lượng cao. Vì vậy, họ quyết định cộng tác với các nhóm Nghiên cứu và DeepMind của Google. Họ cũng làm việc với người bản ngữ và nhà ngôn ngữ học để lọc ra dữ liệu không liên quan từ các nguồn như nội dung cờ bạc và quảng cáo, đồng thời đảm bảo bản dịch chính xác và tự nhiên.
Phiên bản lặp lại mới nhất của nhóm, SEA-LION V3, liên tục được huấn luyện trước trên Gemma 2, sử dụng 200 tỷ mã thông báo dữ liệu SEA. Nhóm nghiên cứu nhận thấy rằng trình tạo mã thông báo của Gemma không chỉ chứa nhiều mã thông báo hơn cho các ngôn ngữ dự kiến mà còn hoạt động hiệu quả hơn so với các mô hình khác. Phiên bản 9 tỷ tham số của Gemma được chọn vì kích thước và hiệu quả của nó, vì các tài nguyên cần thiết để chạy các mô hình quy mô lớn hơn có thể bị giới hạn ở nhiều nơi trong khu vực.

Mức độ tác động
SEA-LION V3 là phiên bản lặp lại tiên tiến nhất của nhóm và các nhà phát triển và nhà nghiên cứu AI khác tại địa phương cũng đang sử dụng phiên bản này. Công ty công nghệ GoTo gần đây đã ra mắt Sahabat-AI, một hệ sinh thái LLM được xây dựng trên SEA-LION dành cho các nhà phát triển ở Indonesia. Sahabat-AI được tích hợp vào trợ lý thoại AI Dira của GoTo, cho phép người dùng truy cập vào cả dịch vụ thanh toán Gojek và GoPay bằng các lệnh thoại bằng ngôn ngữ và phương ngữ bản địa.
Patrick Walujo, Giám đốc điều hành của GoTo, cho biết ông hy vọng Sahabat-AI sẽ tác động tích cực đến hàng triệu cuộc sống ở Indonesia: "Ứng dụng này sẽ giúp các doanh nghiệp của chúng tôi giao tiếp với khách hàng theo những cách mới, đồng thời giúp các bộ của chính phủ phát triển các công cụ để tương tác với người dân một cách toàn diện hơn".
11
Khả năng thành thạo ngôn ngữ Đông Nam Á
14k+
Tải xuống trên Cho ôm cái
38 TRIỆU
Số người dùng hoạt động hằng tháng trên GoPay có quyền truy cập vào Dira
Bước tiếp theo
Nhóm AI Singapore đang lên kế hoạch cho phiên bản tiếp theo của SEA-LION. Mục tiêu của họ là tạo các phiên bản tham số nhỏ hơn và lớn hơn bằng Gemma, phục vụ nhiều trường hợp sử dụng hơn và mang đến cho cộng đồng địa phương sự linh hoạt hơn nữa. Thành công của SEA-LION là yếu tố thiết yếu cho sự bùng nổ AI ở Đông Nam Á, và các LLM khác được xây dựng dựa trên đó, như Sahabat-AI, chỉ là bước khởi đầu.
“Việc ra mắt SEA-LION phiên bản 3 mới dựa trên Gemma cùng với AI Singapore là một bước tiến lớn đối với AI toàn diện. Bằng cách khai thác sức mạnh của Gemma 2 của Google, mô hình mới này vượt trội đáng kể so với các phiên bản trước trên một loạt chỉ số đánh giá ở Đông Nam Á", Manish Gupta, giám đốc cấp cao của Google DeepMind cho biết. “Chúng tôi mong chờ những ứng dụng thú vị mà tính năng này mang lại cũng như những lợi ích mà tính năng này mang lại cho nhiều cộng đồng trên khắp Đông Nam Á”.