AI Singapore hace que la IA sea más inclusiva para el sudeste asiático con Gemma 2
Lanzada en 2017, AI Singapore es una red nacional de instituciones y organizaciones de investigación de IA dedicadas a promover el desarrollo de la IA en Singapur. Uno de sus proyectos, SEA-LION, es una familia de modelos abiertos que lleva el poder de los LLM a los países del sudeste asiático (SEA) que el mundo de la IA había pasado por alto.
El equipo detrás de SEA-LION eligió Gemma, la familia de modelos abiertos ligeros y eficientes de Google, por su vocabulario y comprensión lingüística, así como por su relación tamaño-rendimiento. Con Gemma, los desarrolladores de SEA-LION crearon un LLM potente, eficiente y accesible que hoy en día usan millones de personas en la región de SEA.
El desafío
El equipo de SEA-LION reconoció que muchos de los idiomas que se hablan en la región no estaban representados por los LLM más populares en la actualidad, lo que significaba que partes de la región y grupos enteros de personas tenían poco o ningún acceso a muchas de las posibles aplicaciones de la IA. El equipo también descubrió que, incluso cuando estos LLMs convencionales tenían un conocimiento básico de los idiomas locales del sudeste asiático, no comprendían las diferencias lingüísticas y culturales que conocen los hablantes nativos.
Como explica William Tjhi, director de inteligencia artificial en AI Singapore, la mayor parte de la IA del mundo se basa en idiomas occidentales y orientales, lo que significa que se puede perder mucho en la traducción: “El panorama global de los LLM evolucionó en torno a dos grupos: la costa oeste y China. Estos modelos reflejan esas cosmovisiones basadas en los conjuntos de datos que los entrenan y los lenguajes que los entrenan”.
“El tokenizador de Gemma tiene un mejor rendimiento cuando se aplica a los idiomas que tenemos en nuestra región. Puedes ver eso en el resultado. Esto mejora en gran medida el rendimiento del modelo cuando se entrena en tokens de SEA, ya que el analizador de tokens es más óptimo en comparación con el de otros modelos".
La solución
El equipo de SEA-LION creó un conjunto inclusivo de LLM que reflejan con precisión los matices, los contextos y la diversidad cultural de la región. Para compilar un LLM adecuado con una comprensión real de un conjunto completamente nuevo de lenguajes, el equipo necesitaba datos de entrenamiento diversos y de alta calidad, por lo que decidió colaborar con los equipos de Google DeepMind y de Investigación. También trabajaron con hablantes nativos y lingüistas para filtrar los datos irrelevantes provenientes de fuentes como el contenido y los anuncios de juegos de apuestas, y garantizar traducciones precisas y naturales.
La iteración más reciente del equipo, SEA-LION V3, se entrenó previamente de forma continua en Gemma 2, con 200,000 millones de tokens de datos de SEA. El equipo descubrió que el analizador de Gemma no solo contenía más tokens para los idiomas previstos, sino que también tenía un mejor rendimiento que otros modelos. Se eligió la versión de 9,000 millones de parámetros de Gemma por su tamaño y eficiencia, ya que los recursos necesarios para ejecutar modelos a mayor escala pueden ser limitados en muchas partes de la región.

El impacto
SEA-LION V3 es la iteración más avanzada del equipo hasta el momento, y otros desarrolladores e investigadores locales de IA ya la están utilizando. Recientemente, la empresa de tecnología GoTo lanzó Sahabat-AI, un ecosistema de LLM creado en SEA-LION para desarrolladores de Indonesia. Sahabat-AI está integrado en el asistente de voz Dira AI de GoTo, lo que permite a los usuarios acceder a los servicios de pago de Gojek y GoPay con comandos por voz en idiomas y dialectos nativos.
El director general de GoTo, Patrick Walujo, espera que Sahabat-AI impacte positivamente en millones de vidas en Indonesia: “Ayudará a nuestras empresas a comunicarse de nuevas maneras con los clientes y a nuestros ministerios gubernamentales a desarrollar herramientas para interactuar con los ciudadanos de manera más integral”.
11
Niveles de competencia en idiomas del sudeste asiático
Más de 14 ct
Descargas en Hugging Face
38 mill.
Los usuarios activos por mes en GoPay tienen acceso a Dira
¿Qué sigue?
El equipo de AI Singapore ya está planificando su próxima iteración de SEA-LION. Su objetivo es crear versiones de parámetros más pequeñas y más grandes con Gemma, lo que permite abordar una variedad más amplia de casos de uso y ofrecer a las comunidades locales una mayor flexibilidad. El éxito de SEA-LION ha sido esencial para el auge de la IA en el sudeste asiático, y otros LLM que se basan en él, como Sahabat-AI, son solo el comienzo.
“El lanzamiento de la nueva SEA-LION v3 basada en Gemma con AI Singapore representa un gran paso adelante para la IA inclusiva. Gracias a la potencia de Gemma 2 de Google, este nuevo modelo supera significativamente a las versiones anteriores en una variedad de métricas de evaluación del sudeste asiático", dijo Manish Gupta, director sénior de Google DeepMind. “Esperamos con ansias las emocionantes aplicaciones que esto desbloquea y los beneficios que genera para diversas comunidades en el Sudeste Asiático”.