Condividi

AI Singapore rende l'IA più inclusiva per il Sud-est asiatico con Gemma 2

Lanciato nel 2017, AI Singapore è una rete nazionale di istituzioni e organizzazioni di ricerca in IA dedicate a promuovere lo sviluppo dell'IA a Singapore. Uno dei suoi progetti, SEA-LION, è una famiglia di modelli aperti che offre la potenza degli LLM ai paesi del Sud-est asiatico (SEA) precedentemente trascurati dal mondo dell'IA.

Il team di SEA-LION ha scelto Gemma, la famiglia di modelli aperti leggeri ed efficienti di Google, per il suo vocabolario e la sua comprensione linguistica, nonché per il rapporto dimensioni/prestazioni. Con Gemma, gli sviluppatori di SEA-LION hanno creato un LLM potente, efficiente e accessibile utilizzato oggi da milioni di persone nella regione del Sud-est asiatico.

La sfida

Il team di SEA-LION ha riconosciuto che molte delle lingue parlate nella regione non erano rappresentate dagli LLM più popolari di oggi, il che significa che parti della regione ed interi gruppi di persone avevano poco o nessun accesso a molte delle potenziali applicazioni dell'IA. Il team ha inoltre scoperto che, anche se questi modelli LLM tradizionali avevano una conoscenza di base delle lingue SEA locali, non riuscivano a comprendere le differenze linguistiche e culturali note ai madrelingua.

Come spiega William Tjhi, responsabile dell'IA di AI Singapore, la maggior parte dell'IA mondiale si basa sulle lingue occidentali e orientali, il che significa che molto può andare perso nella traduzione: "Il panorama globale degli LLM si è evoluto attorno a due entità: la costa occidentale e la Cina. Questi modelli riflettono queste visioni del mondo in base ai set di dati che li addestrano e alle lingue che li addestrano."

"Il tokenizzatore di Gemma ha un rendimento migliore se applicato alle lingue che abbiamo nella nostra regione. Puoi vederlo nell'output. Ciò migliora notevolmente le prestazioni del modello quando viene addestrato sui token SEA, perché il tokenizzatore è più ottimale rispetto a quello di altri modelli."

- William Tjhi, responsabile dell'intelligenza artificiale di AI Singapore

Soluzione

Il team di SEA-LION ha creato un insieme inclusivo di LLM che riflettono con precisione le sfumature, i contesti e la diversità culturale della regione. Per creare un LLM adeguato con una vera comprensione di un nuovo insieme di lingue, il team aveva bisogno di dati di addestramento diversi e di alta qualità, quindi ha deciso di collaborare con i team di Google DeepMind e Research. Inoltre, hanno collaborato con madrelingua e linguisti per filtrare i dati irrilevanti provenienti da fonti come contenuti e pubblicità relativi a giochi e scommesse e per garantire traduzioni accurate e dal suono naturale.

L'ultima versione del team, SEA-LION V3, è stata preaddestrata continuamente su Gemma 2 utilizzando 200 miliardi di token di dati SEA. Il team ha scoperto che il tokenizzatore di Gemma non solo conteneva più token per le lingue previste, ma aveva anche un rendimento migliore rispetto ad altri modelli. La versione di Gemma con 9 miliardi di parametri è stata scelta per le sue dimensioni e la sua efficienza, poiché le risorse necessarie per eseguire modelli di dimensioni maggiori possono essere limitate in molte parti della regione.

Correlazione tra il rendimento delle attività in inglese di SEA-LION e il rendimento medio SEA.
Benchmark che tracciano la relazione tra il rendimento delle attività in inglese di SEA-LION e il rendimento medio SEA.

L'impatto

SEA-LION V3 è l'iterazione più avanzata del team e altri ricercatori e sviluppatori di IA locali la stanno già utilizzando. La società di tecnologia GoTo ha recentemente lanciato Sahabat-AI, un ecosistema di LLM basato su SEA-LION per gli sviluppatori indonesiani. Sahabat-AI è integrato nell'assistente vocale Dira AI di GoTo, che consente agli utenti di accedere ai servizi di pagamento Gojek e GoPay con comandi vocali nelle lingue e nei dialetti nativi.

Il CEO di GoTo, Patrick Walujo, si aspetta che Sahabat-AI abbia un impatto positivo sulla vita di milioni di persone in Indonesia: "Aiuterà le nostre attività a comunicare in nuovi modi con i clienti e aiuterà i nostri ministeri a sviluppare strumenti per interagire con i cittadini in modo più completo".

11

Competenze nelle lingue del sud-est asiatico

Più di 14.000

Download su Hugging Face

38 MLN

Gli utenti attivi mensili su GoPay hanno accesso a Dira

Passaggi successivi

Il team di AI Singapore sta già pianificando la prossima versione di SEA-LION. Il loro obiettivo è creare versioni di parametri più piccole e più grandi utilizzando Gemma, in modo da soddisfare una gamma più ampia di casi d'uso e offrire alle comunità locali una flessibilità ancora maggiore. Il successo di SEA-LION è stato fondamentale per lo sviluppo dell'IA in Asia sud-orientale e altri modelli LLM basati su questo modello, come Sahabat-AI, sono solo l'inizio.

"Il lancio del nuovo SEA-LION v3 basato su Gemma con AI Singapore rappresenta un importante passo avanti per l'IA inclusiva. Sfruttando la potenza di Gemma 2 di Google, questo nuovo modello supera notevolmente le versioni precedenti in una serie di metriche di valutazione del Sud-est asiatico", ha dichiarato Manish Gupta, Senior Director di Google DeepMind. "Non vediamo l'ora di scoprire le interessanti applicazioni che questa tecnologia sbloccherà e i vantaggi che porterà alle diverse comunità del Sudest asiatico."