Bagikan

INSAIT membuat LLM pertama di Bulgaria yang terkemuka dengan Gemma 2

Institute for Computer Science, Artificial Intelligence and Technology (INSAIT) adalah organisasi riset kelas dunia di Sofia, Bulgaria. Sejak didirikan pada tahun 2022, INSAIT telah menarik akademisi dan peneliti terkemuka dari seluruh dunia yang ingin memajukan teknologi. Dalam upayanya untuk memperluas aksesibilitas LLM di Bulgaria, INSAIT membuat BgGPT, model bahasa besar (LLM) Bulgaria yang memahami tugas berbasis percakapan dan petunjuk dalam bahasa Bulgaria dan Inggris.

Setelah bereksperimen dengan model lain untuk fondasi BgGPT, tim BgGPT memutuskan bahwa keluarga model terbuka Gemma Google paling cocok untuk tugas ini, berkat performanya yang relatif lebih baik dalam bahasa Bulgaria dan Inggris serta ukurannya yang ringkas. Dengan menggunakan kemampuan bahasa Gemma yang unggul, INSAIT dapat membuat model bilingual yang jauh lebih efisien dan efektif.

Tantangan

INSAIT mengamati tidak adanya model Natural Language Processing (NLP) yang kuat dalam bahasa Bulgaria, karena sebagian besar LLM di dunia berfokus pada bahasa Inggris atau bahasa Timur seperti bahasa Cina. Kelangkaan model juga berarti kurangnya agen AI percakapan yang benar-benar memahami bahasa dan nuansa budaya Bulgaria sekaligus mempertahankan biaya operasional yang wajar. INSAIT tahu bahwa jika ingin membangun kehadiran Bulgaria dan Eropa Timur di dunia AI, mereka harus membuat LLM sendiri dengan performa yang canggih dan akurat.

Perbandingan performa LLM dalam bahasa Bulgaria.
Diagram yang membandingkan performa LLM teratas di Bulgaria.

Solusi

Peneliti INSAIT membuat BgGPT untuk memenuhi berbagai kebutuhan developer dan pengguna yang berbahasa Bulgaria. Model ini tersedia dalam ukuran parameter 27B, 9B, dan 2B. Varian 27B dan 9B mengungguli model yang lebih besar seperti Qwen 2.5 72B Alibaba dan Llama 3.1 70B Meta dalam bahasa Bulgaria. Sementara itu, versi 2B mengungguli model bahasa kecil lainnya seperti Phi 3.5 Microsoft dan Qwen 2.5 3B Alibaba. Ketiga model tersebut mempertahankan performa bahasa Inggris yang kompetitif, berkat kemampuan linguistik Gemma 2 yang mengesankan.

“Gemma membantu kami mencapai performa terbaik dalam NLP Bulgaria dengan menyediakan fondasi yang andal dan skalabel untuk penyesuaian.”

— Anton Alexandrov, Mahasiswa Doktoral di INSAIT

BgGPT dilatih sebelumnya pada sekitar 85 miliar token Bulgaria dan 15 miliar dalam bahasa Inggris. Salah satu elemen yang lebih unik dari pengembangan BgGPT adalah penggunaan strategi pra-pelatihan berkelanjutan Branch-and-Merge INSAIT sendiri, yang memungkinkan model mempelajari informasi baru seperti bahasa Bulgaria tanpa mengganti atau kehilangan informasi lama, seperti pemahaman Gemma yang mendalam tentang matematika dan bahasa Inggris. Fenomena ini disebut sebagai “lupa total” dan tetap menjadi tantangan berulang dalam pengembangan LLM.

Strategi pra-pelatihan Brand-and-Mege.
Diagram alir yang mendokumentasikan strategi pra-pelatihan Branch-and-Mege.

Dampak

BgGPT kini mendukung platform chat publik di BgGPTt.ai menggunakan varian 27B dan 2B. Model 2B menangani tugas tertentu seperti merumuskan ulang kueri pengguna dan klasifikasi, sedangkan model 27B menangani elemen percakapan. Sejak dirilis pada Maret 2024, BgGPT.ai telah menjawab jutaan pertanyaan pengguna. Rilis BgGPT juga menjadikan INSAIT sebagai organisasi pertama di Eropa Tengah dan Timur yang meluncurkan LLM yang dikembangkan secara publik dan kompetitif secara global, sehingga menjadikan organisasi ini sebagai pemimpin di wilayah tersebut.

INSAIT juga telah membagikan strategi pra-pelatihan berkelanjutan Branch-and-Merge kepada developer, yang berpotensi mempercepat pertumbuhan model AI dengan cepat. Perusahaan ini juga telah membagikan seluruh pipeline pelatihan-nya. Kemampuan untuk terus memperluas basis pengetahuan LLM tanpa kehilangan data sebelumnya akan meningkatkan efisiensi pelatihan dan membuat LLM lebih cerdas.

48 ribu+

Download di Hugging Face*

5 juta

Pertanyaan yang dijawab di BgGPT.ai

  • *jumlah download dari 1 Desember - 31 Desember 2024

Langkah selanjutnya

Adopsi BgGPT terus meningkat. Program uji coba telah dimulai di lembaga pemerintah Bulgaria seperti National Revenue Agency (NRA), yang menguji efektivitas LLM dalam skenario khusus. INSAIT juga telah menyatakan minatnya untuk memperluas jangkauan BgGPT ke area lain seperti pendidikan, administrasi publik, dan otomatisasi bisnis.

Developer, peneliti, dan akademisi yang bersemangat di INSAIT berkomitmen untuk mengembangkan teknologi AI di Eropa Timur dan luar negeri. Ke depannya, INSAIT berencana untuk meningkatkan BgGPT dengan potensi penggabungan pemanggilan fungsi dan penyesuaian lebih lanjut dengan model dasar yang lebih besar serta model pelatihan untuk negara lain.