AI Singapore membuat AI lebih inklusif untuk Asia Tenggara dengan Gemma 2
Diluncurkan pada tahun 2017, AI Singapore adalah jaringan nasional dari lembaga dan organisasi riset AI yang didedikasikan untuk memajukan pengembangan AI di Singapura. Salah satu project-nya, SEA-LION, adalah serangkaian model open source yang menghadirkan kecanggihan LLM ke negara-negara Asia Tenggara (SEA) yang sebelumnya diabaikan oleh dunia AI.
Tim di balik SEA-LION memilih Gemma, sekumpulan model terbuka Google yang ringan dan efisien, karena kosakata dan pemahaman linguistiknya, serta rasio ukuran terhadap performanya. Dengan Gemma, developer SEA-LION membuat LLM yang canggih, efisien, dan mudah diakses yang digunakan oleh jutaan orang di wilayah SEA saat ini.
Tantangan
Tim SEA-LION menyadari bahwa banyak bahasa yang digunakan di seluruh wilayah tidak diwakili oleh LLM paling populer saat ini, yang berarti sebagian wilayah dan seluruh kelompok orang memiliki sedikit atau tidak ada akses ke banyak potensi aplikasi AI. Tim juga menemukan bahwa meskipun LLM mainstream ini memiliki pemahaman dasar tentang bahasa lokal SEA, LLM tersebut tidak memahami perbedaan linguistik dan budaya yang diketahui oleh penutur asli.
Seperti yang dijelaskan William Tjhi, kepala kecerdasan buatan di AI Singapore, sebagian besar AI di dunia dibuat berdasarkan bahasa Barat dan Timur, yang berarti banyak hal yang dapat hilang dalam terjemahan: “Lanskap LLM global berkembang di sekitar dua wilayah: Pantai Barat dan China. Model ini mencerminkan pandangan dunia tersebut berdasarkan set data yang melatihnya dan bahasa yang melatihnya.”
“Tokenizer Gemma berperforma lebih baik saat diterapkan ke bahasa yang kami miliki di wilayah kami. Anda dapat melihatnya di output. Hal ini sangat meningkatkan performa model saat dilatih pada token SEA, karena tokenizer lebih optimal dibandingkan tokenizer model lainnya.”
Solusi
Tim SEA-LION membuat kumpulan LLM inklusif yang secara akurat mencerminkan nuansa, konteks, dan keberagaman budaya di wilayah tersebut. Untuk membuat LLM yang tepat dengan pemahaman yang benar tentang serangkaian bahasa baru, tim memerlukan data pelatihan yang beragam dan berkualitas tinggi. Oleh karena itu, mereka memutuskan untuk berkolaborasi dengan tim Google DeepMind & Research. Mereka juga bekerja sama dengan penutur asli dan ahli bahasa untuk memfilter data yang tidak relevan yang berasal dari sumber seperti konten dan iklan perjudian, serta untuk memastikan terjemahan yang akurat dan terdengar alami.
Iterasi terbaru tim, SEA-LION V3, terus dilatih sebelumnya di Gemma 2, menggunakan 200 miliar token data SEA. Tim menemukan bahwa tokenizer Gemma tidak hanya berisi lebih banyak token untuk bahasa yang diinginkan, tetapi juga berperforma lebih baik daripada model lainnya. Versi Gemma dengan 9 miliar parameter dipilih karena ukuran dan efisiensinya, karena resource yang diperlukan untuk menjalankan model berskala lebih besar dapat dibatasi di banyak bagian wilayah.

Dampak
SEA-LION V3 adalah iterasi paling canggih dari tim ini, dan developer serta peneliti AI lokal lainnya telah menggunakannya. Perusahaan teknologi GoTo baru-baru ini meluncurkan Sahabat-AI, ekosistem LLM yang dibuat di SEA-LION untuk developer Indonesia. Sahabat-AI terintegrasi dengan asisten suara Dira AI GoTo, yang memungkinkan pengguna mengakses layanan pembayaran Gojek dan GoPay dengan perintah suara dalam bahasa dan dialek asli.
CEO GoTo Patrick Walujo mengatakan bahwa ia berharap Sahabat-AI akan memberikan dampak positif bagi jutaan orang di Indonesia: “Sahabat-AI akan membantu bisnis kami berkomunikasi dengan cara baru kepada pelanggan, dan membantu kementerian pemerintah kami mengembangkan alat untuk berinteraksi dengan warga secara lebih komprehensif.”
11
Kemampuan bahasa Asia Tenggara
14rb+
Download di Hugging Face
38 JUTA
Pengguna aktif bulanan di GoPay memiliki akses ke Dira
Langkah selanjutnya
Tim di AI Singapore sudah merencanakan iterasi SEA-LION berikutnya. Tujuannya adalah membuat versi parameter yang lebih kecil dan lebih besar menggunakan Gemma, yang memenuhi berbagai kasus penggunaan yang lebih luas dan menawarkan fleksibilitas yang lebih besar kepada komunitas lokal. Keberhasilan SEA-LION sangat penting bagi booming AI di Asia Tenggara, dan LLM lainnya yang dibuat di atasnya, seperti Sahabat-AI, hanyalah permulaan.
“Peluncuran SEA-LION v3 berbasis Gemma baru dengan AI Singapore merupakan langkah besar untuk AI yang inklusif. Dengan memanfaatkan kecanggihan Gemma 2 Google, model baru ini secara signifikan mengungguli versi sebelumnya di berbagai metrik evaluasi Asia Tenggara,” kata Manish Gupta, direktur senior di Google DeepMind. “Kami menantikan berbagai aplikasi menarik yang dapat dihadirkan dan manfaat yang akan diperoleh oleh berbagai komunitas di seluruh Asia Tenggara.”