A IA de Singapura torna a IA mais inclusiva para o Sudeste Asiático com o Gemma 2
Lançada em 2017, a AI Singapore é uma rede nacional de instituições e organizações de pesquisa de IA dedicadas ao avanço do desenvolvimento de IA em Singapura. Um dos projetos, SEA-LION, é uma família de modelos abertos que traz o poder dos LLMs para países do Sudeste Asiático (SEA, na sigla em inglês) que antes eram ignorados pelo mundo da IA.
A equipe por trás do SEA-LION escolheu o Gemma, a família de modelos abertos leves e eficientes do Google, por causa do vocabulário e do entendimento linguístico, além da relação tamanho-desempenho. Com o Gemma, os desenvolvedores da SEA-LION criaram um LLM poderoso, eficiente e acessível usado por milhões de pessoas na região da Ásia do Sudeste.
O desafio
A equipe do SEA-LION reconheceu que muitos dos idiomas falados na região não eram representados pelos LLMs mais conhecidos de hoje, o que significa que partes da região e grupos inteiros de pessoas tinham pouco ou nenhum acesso a muitos dos possíveis aplicativos de IA. A equipe também descobriu que, mesmo quando esses LLMs tinham um entendimento básico dos idiomas locais da SEA, eles não compreendiam as diferenças linguísticas e culturais conhecidas pelos falantes nativos.
Como explica William Tjhi, chefe de inteligência artificial da AI Singapore, a maioria da IA do mundo é desenvolvida com base em idiomas ocidentais e orientais, o que significa que muito pode ser perdido na tradução: "O cenário global de LLMs evoluiu em torno de dois corpos: a Costa Oeste e a China. Esses modelos refletem essas visões de mundo com base em conjuntos de dados que os treinam e nas linguagens que os treinam."
"O Tokenizer do Gemma tem melhor desempenho quando aplicado aos idiomas que temos na nossa região. Você pode conferir isso na saída. Isso melhora muito a performance do modelo quando treinado com tokens de SEA, porque o tokenizer é mais otimizado do que o de outros modelos."
A solução
A equipe do SEA-LION criou um conjunto inclusivo de LLMs que refletem com precisão as nuances, contextos e diversidade cultural da região. Para criar um LLM adequado com um verdadeiro entendimento de um novo conjunto de idiomas, a equipe precisava de dados de treinamento diversos e de alta qualidade. Por isso, eles decidiram colaborar com as equipes do DeepMind e de Pesquisa do Google. Eles também trabalharam com falantes nativos e linguistas para filtrar dados irrelevantes de fontes como conteúdo de jogos de azar e anúncios e garantir traduções precisas e naturais.
A iteração mais recente da equipe, SEA-LION V3, foi pré-treinada continuamente no Gemma 2, usando 200 bilhões de tokens de dados de SEA. A equipe descobriu que o tokenizer de Gemma não apenas continha mais tokens para os idiomas pretendidos, como também tinha um desempenho melhor do que outros modelos. A versão de 9 bilhões de parâmetros de Gemma foi escolhida pelo tamanho e pela eficiência, já que os recursos necessários para executar modelos em grande escala podem ser limitados em muitas partes da região.

O impacto
A SEA-LION V3 é a iteração mais avançada da equipe até o momento, e outros desenvolvedores e pesquisadores de IA locais já a estão usando. A empresa de tecnologia GoTo lançou recentemente o Sahabat-AI, um ecossistema de LLM criado com o SEA-LION para desenvolvedores da Indonésia. O Sahabat-AI está integrado ao assistente de voz Dira AI da GoTo, permitindo que os usuários acessem os serviços de pagamento da Gojek e da GoPay com comandos de voz em idiomas e dialetos nativos.
O CEO da GoTo, Patrick Walujo, disse que espera que a Sahabat-AI tenha um impacto positivo na vida de milhões de pessoas na Indonésia: "Ela vai ajudar nossas empresas a se comunicar com os clientes de novas maneiras e nossos ministérios a desenvolver ferramentas para se envolver com os cidadãos de forma mais abrangente".
11
Proficiência em idiomas do Sudeste Asiático
14 mil ou mais
Downloads no Hugging Face
38 milhões
Os usuários ativos por mês no GoPay têm acesso ao Dira
O que vem em seguida?
A equipe da AI Singapore já está planejando a próxima iteração do SEA-LION. O objetivo deles é criar versões de parâmetros menores e maiores usando o Gemma, atendendo a uma variedade maior de casos de uso e oferecendo ainda mais flexibilidade às comunidades locais. O sucesso do SEA-LION foi essencial para o boom da IA no SEA, e outros LLMs criados com base nele, como o Sahabat-AI, são apenas o começo.
"O lançamento da nova SEA-LION v3 baseada no Gemma com a AI Singapore representa um grande avanço para a IA inclusiva. Aproveitando o poder do Gemma 2 do Google, esse novo modelo supera significativamente as versões anteriores em várias métricas de avaliação do Sudeste Asiático", disse Manish Gupta, diretor sênior do Google DeepMind. "Estamos ansiosos para ver as aplicações incríveis que isso vai permitir e os benefícios que isso vai gerar para comunidades diversas no Sudeste Asiático".