A INSAIT cria o primeiro LLM da Bulgária com o Gemma 2

O Instituto de Ciência da Computação, Inteligência Artificial e Tecnologia (INSAIT) é uma organização de pesquisa de classe mundial em Sófia, Bulgária. Desde sua fundação, em 2022, o INSAIT atraiu os melhores acadêmicos e pesquisadores do mundo todo que buscam avançar o que é possível na tecnologia. Na busca por expandir a acessibilidade de LLMs na Bulgária, o INSAIT criou o BgGPT, um modelo de linguagem grande (LLM) búlgaro que entende tarefas de conversação e baseadas em instruções em búlgaro e inglês.

Depois de experimentar outros modelos para a base do BgGPT, a equipe decidiu que a família de modelos abertos Gemma do Google era a mais adequada para a tarefa, graças à performance relativamente melhor em búlgaro e inglês e ao tamanho compacto. Usando os recursos de linguagem avançados do Gemma, a INSAIT conseguiu criar um modelo bilíngue muito mais eficiente e eficaz.

O desafio

A INSAIT observou a ausência de modelos de processamento de linguagem natural (PLN) em búlgaro, já que a maioria dos LLMs do mundo está focada em inglês ou idiomas orientais, como o chinês. A escassez de modelos também significava a falta de agentes de IA de conversação que entendessem profundamente a língua búlgara e as nuances culturais, mantendo um custo operacional razoável. A INSAIT sabia que, para estabelecer uma presença da Bulgária e da Europa Oriental no mundo da IA, ela precisaria criar um LLM próprio com desempenho poderoso e preciso.

Comparação do desempenho de LLMs em búlgaro.

Gráfico comparando a performance búlgara dos principais LLMs.

A solução

Os pesquisadores do INSAIT criaram o BgGPT para atender a uma ampla gama de necessidades de desenvolvedores e usuários que falam búlgaro. O modelo tem tamanhos de parâmetro de 27B, 9B e 2B. As variantes de 27B e 9B superam modelos maiores, como o Qwen 2.5 72B da Alibaba e o Llama 3.1 70B da Meta em búlgaro. Enquanto isso, a versão 2B supera outros modelos de linguagem pequenos, como o Phi 3.5 da Microsoft e o Qwen 2.5 3B da Alibaba. Os três modelos mantêm a performance competitiva em inglês, graças aos recursos linguísticos impressionantes do Gemma 2.

"O Gemma nos ajuda a alcançar a melhor performance em NLP em búlgaro, fornecendo uma base robusta e escalonável para ajustes finos."

— Anton Alexandrov, estudante de doutorado na INSAIT

O BgGPT foi pré-treinado com cerca de 85 bilhões de tokens em búlgaro e 15 bilhões em inglês. Um dos elementos mais exclusivos do desenvolvimento do BgGPT foi o uso da estratégia contínua de pré-treinamento Branch-and-Merge (ramificação e mesclagem) do INSAIT, que permite que o modelo aprenda novas informações, como o búlgaro, sem substituir ou perder informações antigas, como o profundo conhecimento de matemática e inglês da Gemma. Esse fenômeno é conhecido como "esquecimento catastrófico" e continua sendo um desafio recorrente no desenvolvimento de LLMs.

Estratégia de pré-treinamento da marca e da Mege.

Fluxograma que documenta a estratégia de pré-treinamento de ramificação e mesclagem.

O impacto

O BgGPT agora alimenta a plataforma de chat público em BgGPTt.ai usando as variantes 27B e 2B. Os modelos 2B lidam com tarefas específicas, como reformular consultas e classificações do usuário, enquanto o modelo 27B lida com os elementos de conversação. Desde o lançamento, em março de 2024, o BgGPT.ai já respondeu milhões de perguntas de usuários. O lançamento do BgGPT também faz da INSAIT a primeira organização na Europa Central e Oriental a lançar um LLM desenvolvido publicamente e competitivo em nível mundial, estabelecendo a organização como líder na região.

O INSAIT também compartilhou com os desenvolvedores a estratégia de pré-treinamento contínua Branch-and-Merge, que tem o potencial de acelerar rapidamente o crescimento dos modelos de IA. A empresa também compartilhou todo o pipeline de treinamento. A capacidade de expandir continuamente a base de conhecimento de um LLM sem perder dados anteriores melhora a eficiência do treinamento e torna os LLMs mais inteligentes.

48 kHz ou mais

Downloads no Hugging Face*

5 milhões

Perguntas respondidas no BgGPT.ai

*número de downloads de 1 a 31 de dezembro de 2024

O que vem em seguida?

A adoção do BgGPT continua crescendo. Programas piloto foram iniciados em agências governamentais búlgaras, como a Agência Nacional de Receitas (NRA), para testar a eficácia do LLM em cenários especializados. A INSAIT também expressou interesse em expandir o alcance do BgGPT para outras áreas, como educação, administração pública e automação de negócios.

Os desenvolvedores, pesquisadores e acadêmicos apaixonados do INSAIT estão comprometidos em promover a tecnologia de IA na Europa Oriental e no exterior. No futuro, a INSAIT planeja melhorar o BgGPT com a possível incorporação de chamadas de função e ajustes adicionais com modelos de base maiores, além de modelos de treinamento para outros países.

A INSAIT cria o primeiro LLM búlgaro com o Gemma 2

O desafio

A solução

O impacto

O que vem em seguida?

Estudos de caso relacionados