INSAIT crea il primo modello LLM in lingua bulgara con Gemma 2
L'Istituto di informatica, intelligenza artificiale e tecnologia (INSAIT) è un'organizzazione di ricerca di livello mondiale con sede a Sofia, in Bulgaria. Dalla sua fondazione nel 2022, INSAIT ha attirato accademici e ricercatori di alto livello da tutto il mondo che vogliono far progredire le possibilità della tecnologia. Nel suo impegno per espandere l'accessibilità degli LLM in Bulgaria, INSAIT ha creato BgGPT, un modello linguistico di grandi dimensioni (LLM) bulgaro che comprende attività conversazionali e basate su istruzioni in bulgaro e inglese.
Dopo aver sperimentato altri modelli per la base di BgGPT, il team di BgGPT ha deciso che la famiglia di modelli aperti Gemma di Google era la più adatta per l'attività, grazie al rendimento relativamente migliore in bulgaro e inglese e alle dimensioni compatte. Sfruttando le superiori funzionalità linguistiche di Gemma, INSAIT è stato in grado di creare un modello bilingue molto più efficiente ed efficace.
La sfida
INSAIT ha rilevato l'assenza di modelli di elaborazione del linguaggio naturale (NLP) efficaci in bulgaro, poiché la maggior parte dei modelli linguistici di grandi dimensioni (LLM) del mondo si concentra sull'inglese o sulle lingue orientali come il cinese. La scarsità di modelli ha comportato anche la mancanza di agenti di IA conversazionale che comprendessero a fondo la lingua bulgara e le sfumature culturali, mantenendo al contempo un costo operativo ragionevole. INSAIT sapeva che, se voleva stabilire una presenza per la Bulgaria e l'Europa orientale nel mondo dell'IA, doveva creare il proprio LLM con prestazioni potenti e accurate.

Soluzione
I ricercatori di INSAIT hanno creato BgGPT per soddisfare un'ampia gamma di esigenze di sviluppatori e utenti di lingua bulgara. Il modello è disponibile in dimensioni dei parametri di 27 miliardi, 9 miliardi e 2 miliardi. Entrambe le varianti da 27 miliardi e 9 miliardi superano i modelli più grandi come Qwen 2.5 72 miliardi di Alibaba e Llama 3.1 70 miliardi di Meta in bulgaro. Nel frattempo, la versione 2B supera altri piccoli modelli linguistici come Phi 3.5 di Microsoft e Qwen 2.5 3B di Alibaba. Tutti e tre i modelli mantengono un rendimento competitivo in inglese, grazie alle impressionanti capacità linguistiche di Gemma 2.
"Gemma ci aiuta a ottenere prestazioni all'avanguardia nella PNL in bulgaro fornendo una base solida e scalabile per la messa a punto."
BgGPT è stato preaddestrato su circa 85 miliardi di token bulgari e 15 miliardi in inglese. Uno degli elementi più unici dello sviluppo di BgGPT è stato l'utilizzo della strategia di preaddestramento continuo Branch-and-Merge di INSAIT, che consente al modello di apprendere nuove informazioni come il bulgaro senza sostituire o perdere le informazioni precedenti, come la profonda conoscenza di Gemma di matematica e inglese. Questo fenomeno è noto come "dimenticanza catastrofica" e rimane una sfida ricorrente nello sviluppo di LLM.

L'impatto
BgGPT ora supporta la piattaforma di chat pubblica all'indirizzo BgGPTt.ai utilizzando entrambe le varianti 27B e 2B. I modelli da 2 miliardi gestiscono attività specifiche come la riformulazione delle query degli utenti e la classificazione, mentre il modello da 27 miliardi gestisce gli elementi di conversazione. Dalla sua uscita a marzo 2024, BgGPT.ai ha risposto a milioni di domande degli utenti. La release di BgGPT rende inoltre INSAIT la prima organizzazione dell'Europa centrale e orientale a lanciare un LLM sviluppato pubblicamente e competitivo a livello globale, affermandosi come leader nella regione.
Inoltre, INSAIT ha condiviso con gli sviluppatori la sua strategia di preaddestramento continuo Branch-and-Merge, che ha il potenziale di accelerare rapidamente la crescita dei modelli di IA. Ha anche condiviso l'intera pipeline di addestramento. La possibilità di espandere continuamente la knowledge base di un LLM senza perdere i dati precedenti consente di migliorare l'efficienza dell'addestramento e rendere gli LLM più intelligenti.
Più di 48.000
Download su Hugging Face*
5 Mln
Domande con risposta su BgGPT.ai
- *numero di download dal 1° dicembre al 31 dicembre 2024
Passaggi successivi
L'adozione di BgGPT continua a crescere. Sono stati avviati programmi pilota presso agenzie governative bulgare come l'Agenzia delle entrate nazionale (NRA), per testare l'efficacia dell'LLM in scenari specializzati. INSAIT ha anche espresso interesse a espandere la copertura di BgGPT ad altre aree come istruzione, amministrazione pubblica e automazioni aziendali.
Gli appassionati sviluppatori, ricercatori e accademici di INSAIT si impegnano a promuovere la tecnologia AI nell'Europa orientale e all'estero. In futuro, INSAIT prevede di migliorare BgGPT con la potenziale integrazione di chiamate di funzioni e un'ulteriore ottimizzazione con modelli di base più grandi, nonché l'addestramento di modelli per altri paesi.