AI Singapore rend l'IA plus inclusive pour l'Asie du Sud-Est avec Gemma 2
Lancé en 2017, AI Singapore est un réseau national d'institutions et d'organisations de recherche sur l'IA, qui a pour mission de promouvoir le développement de l'IA à Singapour. L'un de ses projets, SEA-LION, est une famille de modèles ouverts qui offre la puissance des LLM aux pays d'Asie du Sud-Est (ASE) qui étaient auparavant négligés par le monde de l'IA.
L'équipe derrière SEA-LION a choisi Gemma, la famille de modèles ouverts légers et efficaces de Google, pour son vocabulaire et sa compréhension linguistique, ainsi que pour son rapport taille/performances. Avec Gemma, les développeurs de SEA-LION ont créé un LLM puissant, efficace et accessible, utilisé par des millions de personnes dans la région Asie-Pacifique aujourd'hui.
Problématique
L'équipe SEA-LION a constaté que de nombreuses langues parlées dans la région n'étaient pas représentées par les LLM les plus populaires d'aujourd'hui. Cela signifie que certaines parties de la région et des groupes entiers de personnes n'avaient que peu ou pas d'accès à de nombreuses applications potentielles de l'IA. L'équipe a également constaté que même si ces LLM grand public avaient une compréhension de base des langues locales de l'Asie du Sud-Est, ils ne comprenaient pas les différences linguistiques et culturelles connues des locuteurs natifs.
Comme l'explique William Tjhi, responsable de l'intelligence artificielle chez AI Singapore, la plupart des IA du monde sont basées sur des langues occidentales et orientales, ce qui signifie que beaucoup de choses peuvent être perdues lors de la traduction : "Le paysage mondial des LLM a évolué autour de deux entités: la côte ouest et la Chine. Ces modèles reflètent ces visions du monde en fonction des ensembles de données et des langues qui les entraînent."
"Le tokenizer de Gemma est plus performant lorsqu'il est appliqué aux langues de notre région. Vous pouvez le voir dans la sortie. Cela améliore considérablement les performances du modèle lorsqu'il est entraîné sur des jetons SEA, car le tokenizer est plus optimal que celui des autres modèles."
Solution
L'équipe SEA-LION a créé un ensemble inclusif de LLM qui reflètent précisément les nuances, les contextes et la diversité culturelle de la région. Pour créer un LLM approprié qui comprenne vraiment un tout nouvel ensemble de langues, l'équipe avait besoin de données d'entraînement diverses et de haute qualité. Elle a donc décidé de collaborer avec les équipes Google DeepMind et Research. Ils ont également travaillé avec des locuteurs natifs et des linguistes pour filtrer les données non pertinentes provenant de sources telles que les contenus et les annonces de jeux d'argent et de hasard, et pour garantir des traductions précises et naturelles.
La dernière itération de l'équipe, SEA-LION V3, a été pré-entraînée en continu sur Gemma 2, à l'aide de 200 milliards de jetons de données SEA. L'équipe a constaté que le tokenizer de Gemma contenait non seulement plus de jetons pour les langues ciblées, mais qu'il était également plus performant que les autres modèles. La version de Gemma à 9 milliards de paramètres a été choisie pour sa taille et son efficacité, car les ressources nécessaires à l'exécution de modèles à plus grande échelle peuvent être limitées dans de nombreuses régions.

L'impact
SEA-LION V3 est l'itération la plus avancée de l'équipe à ce jour. D'autres développeurs et chercheurs locaux dans le domaine de l'IA l'utilisent déjà. L'entreprise technologique GoTo a récemment lancé Sahabat-AI, un écosystème de LLM basé sur SEA-LION pour les développeurs indonésiens. Sahabat-AI est intégré à l'assistant vocal Dira d'IA de GoTo, qui permet aux utilisateurs d'accéder aux services de paiement Gojek et GoPay à l'aide de commandes vocales dans les langues et dialectes natifs.
Le PDG de GoTo, Patrick Walujo, s'attend à ce que Sahabat-AI ait un impact positif sur des millions de vies en Indonésie : "Il aidera nos entreprises à communiquer de nouvelles manières avec leurs clients et nos ministères à développer des outils pour interagir plus globalement avec les citoyens."
11
Compétences linguistiques en Asie du Sud-Est
14 k+
Téléchargements sur Hugging Face
38 M
Les utilisateurs actifs par mois sur GoPay ont accès à Dira
Étapes suivantes
L'équipe d'AI Singapore prévoit déjà la prochaine itération de SEA-LION. Son objectif est de créer des versions de paramètres plus petites et plus grandes à l'aide de Gemma, afin de répondre à une plus grande variété de cas d'utilisation et d'offrir aux communautés locales une flexibilité encore plus grande. Le succès de SEA-LION a été essentiel au boom de l'IA dans la région Asie-Pacifique, et les autres LLM qui en découlent, comme Sahabat-AI, ne sont que le début.
"Le lancement de la nouvelle version 3 de SEA-LION basée sur Gemma avec AI Singapore représente un grand pas en avant pour l'IA inclusive. En exploitant la puissance de Gemma 2 de Google, ce nouveau modèle surpasse considérablement les versions précédentes sur un certain nombre de métriques d'évaluation en Asie du Sud-Est.", a déclaré Manish Gupta, directeur principal chez Google DeepMind. "Nous avons hâte de voir les applications intéressantes que cela va ouvrir et les avantages qu'il apportera aux diverses communautés d'Asie du Sud-Est."