INSAIT crée le premier LLM bulgare de premier plan avec Gemma 2
L'INSAIT(Institute for Computer Science, Artificial Intelligence and Technology) est une organisation de recherche de classe mondiale basée à Sofia, en Bulgarie. Depuis sa création en 2022, INSAIT attire les meilleurs universitaires et chercheurs du monde entier qui souhaitent repousser les limites de la technologie. Dans le but d'étendre l'accessibilité des LLM en Bulgarie, INSAIT a créé BgGPT, un grand modèle de langage (LLM) bulgare qui comprend les tâches conversationnelles et basées sur des instructions en bulgare et en anglais.
Après avoir testé d'autres modèles pour la base de BgGPT, l'équipe a décidé que la famille de modèles ouverts Gemma de Google était la plus adaptée à la tâche, grâce à ses performances comparativement meilleures en bulgare et en anglais, et à sa taille compacte. Grâce aux fonctionnalités linguistiques supérieures de Gemma, INSAIT a pu créer un modèle bilingue beaucoup plus efficace.
Problématique
INSAIT a constaté l'absence de modèles de traitement du langage naturel (TLN) performants en bulgare, car la plupart des LLM du monde sont axés sur l'anglais ou les langues orientales comme le chinois. La rareté des modèles a également entraîné un manque d'agents d'IA conversationnelle qui comprenaient parfaitement la langue bulgare et les nuances culturelles, tout en conservant un coût opérationnel raisonnable. INSAIT savait que s'il voulait établir une présence de la Bulgarie et de l'Europe de l'Est dans le monde de l'IA, il devait créer son propre LLM avec des performances puissantes et précises.

Solution
Les chercheurs de l'INSAIT ont créé BgGPT pour répondre à un large éventail de besoins des développeurs et des utilisateurs bulgares. Le modèle est disponible en tailles de paramètres 27 B, 9 B et 2 B. Les variantes 27 milliards et 9 milliards de paramètres surpassent les modèles plus volumineux tels que Qwen 2.5 72 milliards d'Alibaba et Llama 3.1 70 milliards de Meta en bulgare. En outre, la version 2 milliards surpasse d'autres petits modèles de langage tels que Phi 3.5 de Microsoft et Qwen 2.5 3 milliards d'Alibaba. Les trois modèles affichent des performances compétitives en anglais, grâce aux capacités linguistiques impressionnantes de Gemma 2.
"Gemma nous aide à obtenir des performances de pointe en TAL bulgare en fournissant une base robuste et évolutive pour le paramétrage."
BgGPT a été pré-entraîné sur environ 85 milliards de jetons bulgares et 15 milliards en anglais. L'un des éléments les plus uniques du développement de BgGPT a été l'utilisation de la stratégie de pré-entraînement continue Branch-and-Merge (Branchement et fusion) d'INSAIT, qui permet au modèle d'apprendre de nouvelles informations comme le bulgare sans remplacer ni perdre les anciennes, comme la compréhension approfondie de Gemma des mathématiques et de l'anglais. Ce phénomène est appelé "oubli catastrophique" et reste un défi récurrent dans le développement de LLM.

L'impact
BgGPT alimente désormais la plate-forme de chat publique sur BgGPTt.ai à l'aide de ses variantes 27B et 2B. Les modèles 2B gèrent des tâches spécifiques, comme la reformulation des requêtes utilisateur et la classification, tandis que le modèle 27B gère les éléments de conversation. Depuis son lancement en mars 2024, BgGPT.ai a répondu à des millions de questions d'utilisateurs. La publication de BgGPT fait également d'INSAIT la première organisation d'Europe centrale et orientale à lancer un LLM développé publiquement et compétitif à l'échelle mondiale, ce qui en fait un leader dans la région.
INSAIT a également partagé avec les développeurs sa stratégie de pré-entraînement continu Branch-and-Merge, qui peut accélérer rapidement la croissance des modèles d'IA. Elle a également partagé l'ensemble de son pipeline d'entraînement. La possibilité d'étendre continuellement la base de connaissances d'un LLM sans perdre les données précédentes permet d'améliorer l'efficacité de l'entraînement et de rendre les LLM plus intelligents.
48 kHz et plus
Téléchargements sur Hugging Face*
5 millions
Questions avec réponses sur BgGPT.ai
- *Nombre de téléchargements du 1er décembre au 31 décembre 2024
Étapes suivantes
L'adoption de BgGPT ne cesse de croître. Des programmes pilotes ont été lancés dans des agences gouvernementales bulgares, comme l'Agence nationale des revenus (NRA), pour tester l'efficacité du LLM dans des scénarios spécialisés. INSAIT souhaite également étendre la portée du BgGPT à d'autres domaines, comme l'éducation, l'administration publique et l'automatisation des entreprises.
Les développeurs, chercheurs et universitaires passionnés de l'INSAIT s'engagent à faire progresser la technologie d'IA en Europe de l'Est et à l'étranger. À l'avenir, INSAIT prévoit d'améliorer BgGPT en intégrant potentiellement l'appel de fonction et en effectuant un ajustement plus précis avec des modèles de base plus volumineux, ainsi que des modèles d'entraînement pour d'autres pays.