Teilen

AI Singapore macht KI mit Gemma 2 für Südostasien inklusiver

AI Singapore wurde 2017 gegründet und ist ein nationales Netzwerk von KI-Forschungseinrichtungen und -organisationen, das sich der Weiterentwicklung der KI in Singapur widmet. Eines dieser Projekte, SEA-LION, ist eine Familie offener Modelle, die die Leistungsfähigkeit von LLMs in Länder Südostasiens (SEA) bringt, die bisher von der Welt der KI übersehen wurden.

Das Team hinter SEA-LION entschied sich für Gemma, die Familie der leichten und effizienten offenen Modelle von Google, aufgrund ihres Wortschatzes und ihres linguistischen Verständnisses sowie ihres Größen-/Leistungsverhältnisses. Mit Gemma haben die SEA-LION-Entwickler ein leistungsstarkes, effizientes und barrierefreies LLM entwickelt, das heute von Millionen von Menschen in der SEA-Region verwendet wird.

Die Herausforderung

Das SEA-LION-Team erkannte, dass viele der in der Region gesprochenen Sprachen in den derzeit beliebtesten LLMs nicht vertreten sind. Das bedeutete, dass Teile der Region und ganze Personengruppen nur wenig bis gar keinen Zugriff auf viele der potenziellen Anwendungen von KI hatten. Das Team stellte außerdem fest, dass diese gängigen LLMs zwar ein grundlegendes Verständnis der lokalen SEA-Sprachen hatten, aber die sprachlichen und kulturellen Unterschiede, die Muttersprachlern bekannt sind, nicht verstanden.

Wie William Tjhi, der Leiter der Abteilung für künstliche Intelligenz bei AI Singapore, erklärt, basiert die KI der Welt größtenteils auf westlichen und östlichen Sprachen. Das bedeutet, dass bei der Übersetzung viel verloren gehen kann: „Die globale LLM-Landschaft hat sich um zwei Gruppen gebildet: die Westküste und China. Diese Modelle spiegeln diese Weltsichten wider, die auf den Datensätzen und Sprachen basieren, mit denen sie trainiert werden.“

„Der Tokenisierer von Gemma funktioniert besser, wenn er auf die Sprachen in unserer Region angewendet wird. Das sehen Sie in der Ausgabe. Dies verbessert die Modellleistung erheblich, wenn es mit SEA-Tokens trainiert wird, da der Tokenizer im Vergleich zum Tokenizer anderer Modelle optimaler ist.“

– William Tjhi, Leiter der Abteilung für künstliche Intelligenz bei AI Singapore

Die Lösung

Das SEA-LION-Team hat eine Reihe von LLMs erstellt, die die Nuancen, Kontexte und kulturelle Vielfalt der Region genau widerspiegeln. Um ein LLM zu entwickeln, das eine ganze Reihe neuer Sprachen versteht, benötigte das Team vielfältige, hochwertige Trainingsdaten. Daher entschied es sich, mit den DeepMind- und Forschungsteams von Google zusammenzuarbeiten. Außerdem arbeiteten sie mit Muttersprachlern und Linguisten zusammen, um irrelevante Daten aus Quellen wie Glücksspielinhalten und Werbung herauszufiltern und für korrekte, natürlich klingende Übersetzungen zu sorgen.

Die neueste Iteration des Teams, SEA-LION V3, wurde kontinuierlich mit 200 Milliarden SEA-Daten-Tokens auf Gemma 2 vorab trainiert. Das Team stellte fest, dass der Tokenizer von Gemma nicht nur mehr Tokens für die gewünschten Sprachen enthielt, sondern auch eine bessere Leistung als andere Modelle erzielte. Die Version mit 9 Milliarden Parametern wurde aufgrund ihrer Größe und Effizienz ausgewählt, da die für die Ausführung von Modellen im größeren Maßstab erforderlichen Ressourcen in vielen Teilen der Region begrenzt sein können.

Korrelation zwischen der Leistung von SEA-LION bei englischen Aufgaben und der durchschnittlichen Leistung von SEA
Benchmarks, die die Beziehung zwischen der Leistung von SEA-LION bei englischen Aufgaben und der durchschnittlichen Leistung von SEA darstellen

Die Auswirkungen

SEA-LION V3 ist die bisher fortschrittlichste Iteration des Teams und wird bereits von anderen lokalen KI-Entwicklern und -Forschern eingesetzt. Das Technologieunternehmen GoTo hat vor Kurzem Sahabat-AI eingeführt, ein LLM-System, das auf SEA-LION basiert und für indonesische Entwickler entwickelt wurde. Sahabat-KI ist in den Sprachassistenten Dira AI von GoTo integriert. So können Nutzer mit Sprachbefehlen in ihrer Muttersprache und in verschiedenen Dialekten auf die Zahlungsdienste von Gojek und GoPay zugreifen.

GoTo-CEO Patrick Walujo erwartet, dass Sahabat-KI das Leben von Millionen von Menschen in Indonesien positiv beeinflussen wird: „Sie wird unseren Unternehmen helfen, auf neue Weise mit Kunden zu kommunizieren, und unseren Ministerien, Tools zu entwickeln, mit denen sie umfassender mit den Bürgern interagieren können.“

11

Kenntnisse südostasiatischer Sprachen

14.000+

Downloads bei Hugging Face

38 Mio.

Monatlich aktive Nutzer von GoPay haben Zugriff auf Dira

Weiteres Vorgehen

Das Team von AI Singapore plant bereits die nächste Iteration von SEA-LION. Ziel ist es, mit Gemma kleinere und größere Parameterversionen zu erstellen, die für eine größere Vielfalt von Anwendungsfällen geeignet sind und lokalen Gemeinden noch mehr Flexibilität bieten. Der Erfolg von SEA-LION war entscheidend für den KI-Boom in Südostasien. Andere darauf aufbauende LLMs wie Sahabat-AI sind erst der Anfang.

„Die Einführung der neuen Gemma-basierten SEA-LION v3 mit AI Singapore ist ein wichtiger Schritt in Richtung inklusiver KI. Durch die Nutzung von Gemma 2 von Google übertrifft dieses neue Modell frühere Versionen bei einer Reihe von Bewertungsmesswerten für Südostasien deutlich“, sagt Manish Gupta, Senior Director bei Google DeepMind. „Wir freuen uns auf die spannenden Anwendungen und Vorteile, die sich dadurch für vielfältige Communitys in Südostasien ergeben.“