AI Singapore udostępnia AI w całej Azji Południowo-Wschodniej dzięki Gemma 2
Uruchomiona w 2017 r. inicjatywa AI Singapore to krajowa sieć instytucji i organizacji zajmujących się badaniami nad AI, której celem jest rozwój tej technologii w Singapurze. Jeden z projektów, SEA-LION, to rodzina otwartych modeli, która wykorzystuje potencjał dużych modeli językowych w krajach Azji Południowo-Wschodniej, które wcześniej nie były objęte badaniami w zakresie AI.
Zespół SEA-LION wybrał model Gemma, który należy do rodziny lekkich i wydajnych otwartych modeli Google, ze względu na jego słownictwo i rozumienie języka, a także stosunek rozmiaru do wydajności. Dzięki Gemmie programiści SEA-LION stworzyli wydajny i dostępny LLM, z którego obecnie korzystają miliony osób w regionie Azji i Pacyfiku.
Wyzwanie
Zespół SEA-LION zauważył, że wiele języków używanych w tym regionie nie było reprezentowanych przez obecnie najpopularniejsze duże modele językowe, co oznaczało, że niektóre części regionu i całe grupy ludzi miały ograniczony lub żaden dostęp do wielu potencjalnych zastosowań AI. Zespół odkrył też, że nawet jeśli te popularne sieci neuronowe miały podstawowe zrozumienie lokalnych języków azjatyckich, nie rozumiały one różnic językowych i kulturowych znanych rodzimym użytkownikom.
Jak wyjaśnia William Tjhi, dyrektor ds. sztucznej inteligencji w AI Singapore, większość światowej AI jest oparta na językach zachodnich i wschodnich, co oznacza, że wiele może się zgubić w tłumaczeniu: „Globalny krajobraz LLM ewoluował wokół dwóch grup: Zachodniego Wybrzeża i Chin. Modele te odzwierciedlają te poglądy na podstawie zbiorów danych, na których są trenowane, oraz języków, których używają”.
„Tokenizer Gemma działa lepiej w przypadku języków używanych w naszym regionie. Możesz to zobaczyć w wyniku. Znacznie zwiększa to wydajność modelu trenowanego na tokenach SEA, ponieważ tokenizer jest bardziej optymalny niż tokenizer innych modeli.
Rozwiązanie
Zespół SEA-LION stworzył wszechstronny zestaw modeli LLM, które dokładnie odzwierciedlają niuanse, kontekst i różnorodność kulturową regionu. Aby stworzyć odpowiedni model LLM, który naprawdę rozumie nowy zestaw języków, zespół potrzebował zróżnicowanych, wysokiej jakości danych treningowych. Dlatego zdecydował się na współpracę z zespołami Google DeepMind i Google Research. Współpracowaliśmy też z rodzynnymi użytkownikami i lingwistami, aby odfiltrować nieistotne dane pochodzące ze źródeł takich jak treści związane z hazardem i reklamy oraz zapewnić dokładne, naturalnie brzmiące tłumaczenia.
Najnowsza wersja modelu SEA-LION III została wstępnie wytrenowana na Gemma 2 przy użyciu 200 mld tokenów danych SEA. Zespół odkrył, że tokenizer Gemma nie tylko zawierał więcej tokenów dla docelowych języków, ale też działał lepiej niż inne modele. Wersja Gemma z 9 mld parametrami została wybrana ze względu na rozmiar i wydajność, ponieważ zasoby wymagane do uruchamiania modeli na większą skalę mogą być ograniczone w wielu częściach regionu.

Wpływ
SEA-LION V3 to najbardziej zaawansowana wersja opracowana przez zespół, a inni lokalni deweloperzy i badacze AI już ją wykorzystują. Firma technologiczna GoTo niedawno wprowadziła Sahabat-AI, czyli ekosystem LLM zbudowany na podstawie SEA-LION dla indonezyjskich deweloperów. Sahabat-AI jest zintegrowany z asystentem głosowym Dira AI firmy GoTo, co umożliwia użytkownikom dostęp do usług płatniczych Gojek i GoPay za pomocą poleceń głosowych w rodzinnych językach i dialektach.
Szef firmy GoTo Patrick Walujo oświadczył, że oczekuje, że Sahabat-AI będzie miał pozytywny wpływ na życie milionów ludzi w Indonezji: „Pomoże naszym firmom w komunikowaniu się z klientami w nowy sposób, a także naszym ministerstwom w tworzeniu narzędzi do bardziej kompleksowego zaangażowania obywateli”.
11
znajomość języków azjatyckich
> 14 tys.
Pobrania w Hugging Face
38 mln
Liczba aktywnych użytkowników miesięcznie w GoPay, którzy mają dostęp do Dira
Co dalej?
Zespół AI Singapore planuje już kolejną iterację SEA-LION. Ich celem jest tworzenie mniejszych i większych wersji parametrów za pomocą Gemma, aby dostosować się do większej liczby zastosowań i zapewnić lokalnym społecznościom jeszcze większą elastyczność. Sukces SEA-LION był kluczowy dla rozwoju AI w Google, a inne LLM, takie jak Sahabat-AI, to dopiero początek.
„Wprowadzenie nowej wersji SEA-LION 3 opartej na Gemma przez AI Singapore to duży krok naprzód w zakresie tworzenia technologii AI dla wszystkich. Wykorzystując możliwości narzędzia Gemma 2 firmy Google, nowy model znacznie przewyższa wyniki poprzednich wersji pod względem różnych wskaźników oceny w Azji Południowo-Wschodniej – mówi Manish Gupta, starszy dyrektor w Google DeepMind. „Z niecierpliwością czekamy na ekscytujące zastosowania i korzyści, jakie to przyniesie różnym społecznościom w Azji Południowo-Wschodniej”.