INSAIT tạo ra chương trình LLM đầu tiên hàng đầu ở Bulgaria bằng Gemma 2

Viện Khoa học máy tính, Trí tuệ nhân tạo và Công nghệ (INSAIT) là một tổ chức nghiên cứu đẳng cấp thế giới ở Sofia, Bulgaria. Kể từ khi thành lập vào năm 2022, INSAIT đã thu hút các học giả và nhà nghiên cứu hàng đầu trên khắp thế giới nhằm phát triển những khả năng có thể trong công nghệ. Trong nỗ lực mở rộng khả năng hỗ trợ tiếp cận LLM ở Bulgaria, INSAIT đã tạo ra BgGPT, một mô hình ngôn ngữ lớn (LLM) bằng tiếng Bulgaria có thể hiểu các nhiệm vụ dựa trên hướng dẫn và trò chuyện bằng tiếng Bulgaria và tiếng Anh.

Sau khi thử nghiệm các mô hình khác cho nền tảng của BgGPT, nhóm BgGPT đã quyết định rằng gia đình mô hình mở Gemma của Google là phù hợp nhất cho nhiệm vụ này, nhờ hiệu suất tương đối tốt hơn bằng tiếng Bulgaria và tiếng Anh cũng như kích thước nhỏ gọn. Bằng cách sử dụng các khả năng ngôn ngữ vượt trội của Gemma, INSAIT đã có thể tạo ra một mô hình song ngữ hiệu quả và hiệu quả hơn nhiều.

Thách thức

INSAIT nhận thấy không có mô hình Xử lý ngôn ngữ tự nhiên (NLP) mạnh mẽ nào bằng tiếng Bulgaria, vì hầu hết các LLM trên thế giới đều tập trung vào tiếng Anh hoặc các ngôn ngữ phương Đông như tiếng Trung. Việc thiếu mô hình cũng đồng nghĩa với việc thiếu các tác nhân AI trò chuyện hiểu rõ ngôn ngữ và sắc thái văn hoá của Bulgaria, đồng thời duy trì chi phí vận hành hợp lý. INSAIT biết rằng nếu muốn Bulgaria và Đông Âu có chỗ đứng trong thế giới AI, họ phải tạo ra LLM của riêng mình với hiệu suất mạnh mẽ và chính xác.

So sánh hiệu suất của LLM bằng tiếng Bulgaria.

Biểu đồ so sánh hiệu suất của các chương trình LLM hàng đầu ở Bulgaria.

Giải pháp

Các nhà nghiên cứu của INSAIT đã tạo ra BgGPT để đáp ứng nhiều nhu cầu của nhà phát triển và người dùng nói tiếng Bulgaria. Mô hình này có các kích thước tham số là 27B, 9B và 2B. Cả biến thể 27B và 9B đều vượt trội so với các mô hình lớn hơn như Qwen 2.5 72B của Alibaba và Llama 3.1 70B của Meta bằng tiếng Bulgaria. Trong khi đó, phiên bản 2B hoạt động hiệu quả hơn các mô hình ngôn ngữ nhỏ khác như Phi 3.5 của Microsoft và Qwen 2.5 3B của Alibaba. Cả ba mô hình đều duy trì hiệu suất cạnh tranh bằng tiếng Anh nhờ khả năng ngôn ngữ ấn tượng của Gemma 2.

"Gemma giúp chúng tôi đạt được hiệu suất hiện đại trong NLP tiếng Bulgaria bằng cách cung cấp một nền tảng mạnh mẽ, có thể mở rộng để tinh chỉnh."

– Anton Alexandrov, Nghiên cứu sinh tiến sĩ tại INSAIT

BgGPT được huấn luyện trước trên khoảng 85 tỷ mã thông báo tiếng Bulgaria và 15 tỷ mã thông báo tiếng Anh. Một trong những yếu tố độc đáo hơn trong quá trình phát triển BgGPT là việc sử dụng chiến lược huấn luyện trước liên tục Branch-and-Merge (Chia nhánh và hợp nhất) của INSAIT. Chiến lược này cho phép mô hình học thông tin mới như tiếng Bulgaria mà không thay thế hoặc mất thông tin cũ, chẳng hạn như sự hiểu biết sâu sắc của Gemma về toán học và tiếng Anh. Hiện tượng này được gọi là "quên nghiêm trọng" và vẫn là một thách thức thường xuyên trong quá trình phát triển LLM.

Sơ đồ quy trình ghi lại chiến lược huấn luyện trước Branch-and-Mege.

Mức độ tác động

BgGPT hiện hỗ trợ nền tảng trò chuyện công khai tại BgGPTt.ai bằng cả biến thể 27B và 2B. Mô hình 2B xử lý các nhiệm vụ cụ thể như diễn đạt lại truy vấn của người dùng và phân loại, trong khi mô hình 27B xử lý các phần tử trò chuyện. Kể từ khi ra mắt vào tháng 3 năm 2024, BgGPT.ai đã trả lời hàng triệu câu hỏi của người dùng. Việc phát hành BgGPT cũng giúp INSAIT trở thành tổ chức đầu tiên ở Trung và Đông Âu ra mắt một LLM được phát triển công khai có khả năng cạnh tranh trên toàn cầu, giúp tổ chức này trở thành người dẫn đầu trong khu vực.

INSAIT cũng đã chia sẻ với các nhà phát triển chiến lược huấn luyện trước liên tục Branch-and-Merge (Chia nhánh và hợp nhất). Chiến lược này có khả năng đẩy nhanh tốc độ phát triển của các mô hình AI. Họ cũng đã chia sẻ toàn bộ quy trình đào tạo. Khả năng liên tục mở rộng cơ sở kiến thức của LLM mà không làm mất dữ liệu trước đó sẽ giúp cải thiện hiệu quả huấn luyện và giúp LLM thông minh hơn.

48.000 trở lên

Số lượt tải xuống trên ứng dụng Cho ôm cái*

5 triệu

Câu hỏi được trả lời trên BgGPT.ai

*số lượt tải xuống từ ngày 1 tháng 12 đến ngày 31 tháng 12 năm 2024

Bước tiếp theo

Số lượng người sử dụng BgGPT tiếp tục tăng lên. Các chương trình thí điểm đã bắt đầu tại các cơ quan chính phủ Bulgaria như Cơ quan thuế quốc gia (NRA), thử nghiệm hiệu quả của LLM trong các tình huống chuyên biệt. INSAIT cũng bày tỏ sự quan tâm đến việc mở rộng phạm vi tiếp cận của BgGPT sang các lĩnh vực khác như giáo dục, quản trị công và tự động hoá doanh nghiệp.

Các nhà phát triển, nhà nghiên cứu và học giả đầy nhiệt huyết tại INSAIT cam kết phát triển công nghệ AI ở Đông Âu và trên thế giới. Trong tương lai, INSAIT dự định cải thiện BgGPT bằng cách tích hợp tiềm năng gọi hàm và tinh chỉnh thêm bằng các mô hình cơ sở lớn hơn cũng như các mô hình huấn luyện cho các quốc gia khác.

INSAIT tạo ra chương trình LLM đầu tiên hàng đầu ở Bulgaria bằng Gemma 2

Thách thức

Giải pháp

Mức độ tác động

Bước tiếp theo

Nghiên cứu điển hình có liên quan