Udostępnij

INSAIT tworzy zaawansowany model LLM z wykorzystaniem Gemma 2

Instytut Informatyki, Sztucznej Inteligencji i Technologii (INSAIT) to światowej klasy organizacja badawcza z lokalizacją w Sofiach w Bułgarii. Od momentu powstania w 2022 r. INSAIT przyciąga najlepszych naukowców i badaczy z całego świata, którzy chcą rozwijać możliwości technologiczne. W ramach działań na rzecz zwiększenia dostępności dużych modeli językowych w Bułgarii INSAIT stworzył BgGPT, duży model językowy (LLM) w języku bułgarskim, który rozumie zadania oparte na rozmowach i instrukcjach w języku bułgarskim i angielskim.

Po eksperymentowaniu z innymi modelami na potrzeby BgGPT zespół BgGPT zdecydował, że rodzina otwartych modeli Gemma firmy Google najlepiej się do tego nadaje, ponieważ ma stosunkowo lepszą wydajność w przypadku języka bułgarskiego i angielskiego oraz kompaktowe rozmiary. Dzięki doskonałym umiejętnościom językowym Gemma zespół INSAIT mógł stworzyć znacznie wydajniejszy i skuteczniejszy model dwujęzyczny.

Wyzwanie

Zespół INSAIT zauważył, że w przypadku języka bułgarskiego nie ma dostępnych skutecznych modeli przetwarzania języka naturalnego, ponieważ większość dużych modeli językowych na świecie koncentruje się na języku angielskim lub językach wschodnich, takich jak chiński. Z powodu braku modeli nie było też agentów konwersacyjnych AI, którzy dobrze rozumieli język bułgarski i niuansy kulturowe, a jednocześnie nie generowali wysokich kosztów operacyjnych. Firma INSAIT wiedziała, że jeśli chce zaistnieć w świecie AI w Bułgarii i Europie Wschodniej, musi stworzyć własny model LLM o wysokiej wydajności i dokładności.

Porównanie skuteczności modeli LLM w języku bułgarskim
Wykres porównujący skuteczność najlepszych modeli LLM w języku bułgarskim.

Rozwiązanie

Naukowcy z INSAIT opracowali BgGPT, aby zaspokoić szeroki zakres potrzeb bułgarskojęzycznych deweloperów i użytkowników. Model jest dostępny w wersjach z parametrami 27B, 9B i 2B. Zarówno wariant 27B, jak i 9B wyprzedzają większe modele, takie jak Qwen 2.5 72B firmy Alibaba i Llama 3.1 70B firmy Meta w języku bułgarskim. Wersja 2B wygrywa z innymi małymi modelami językowymi, takimi jak Phi 3.5 firmy Microsoft czy Qwen 2.5 3B firmy Alibaba. Dzięki imponującym możliwościom językowym Gemma 2 wszystkie 3 modele osiągają konkurencyjną skuteczność w przypadku języka angielskiego.

„Gemma pomaga nam osiągnąć najlepszą wydajność w bułgarskim NLP, zapewniając solidną i skalowalną podstawę do dokładnego dostosowania”.

– Anton Alexandrov, doktorant w INSAIT

BgGPT został wstępnie wytrenowany na około 85 mld tokenów w języku bułgarskim i 15 mld w języku angielskim. Jednym z bardziej unikalnych elementów rozwoju BgGPT było wykorzystanie przez INSAIT własnej strategii gałęzi i zapisywania, która umożliwia modelowi uczenie się nowych informacji, takich jak język bułgarski, bez zastępowania lub utraty starych informacji, jak w przypadku Gemma, która ma głębokie zrozumienie matematyki i języka angielskiego. Zjawisko to nazywa się „katastrofalnym zapominaniem” i nadal stanowi problem w przypadku rozwoju modeli LLM.

Strategia wstępnego szkolenia z użyciem Brand-and-Mege.
Schemat blokowy przedstawiający strategię wstępnego trenowania z podziałem na gałęzie i z połączeniem.

Wpływ

BgGPT obsługuje teraz publiczną platformę czatu na stronie BgGPTt.ai, używając wariantów 27B i 2B. Modele 2B obsługują określone zadania, takie jak przeformułowywanie zapytań użytkowników i klasyfikacja, a model 27B obsługuje elementy konwersacyjne. Od czasu wydania w marcu 2024 r. BgGPT.ai udzielił odpowiedzi na miliony pytań użytkowników. Dzięki wydaniu BgGPT INSAIT jest też pierwszą organizacją w Europie Środkowej i Wschodniej, która wprowadziła publicznie rozwijany LLM, który jest konkurencyjny na skalę światową, co czyni ją liderem w regionie.

Firma INSAIT udostępniła też deweloperom swoją strategię gałęzi i łączenia, która może znacznie przyspieszyć rozwój modeli AI. Udostępniła też cały potok trenowania. Możliwość ciągłego poszerzania bazy wiedzy modelu LLM bez utraty wcześniejszych danych zwiększa efektywność treningu i czyni modele LLM mądrzejszymi.

> 48 TYS.

Pobrania w Hugging Face*

5 mln

Pytania z BgGPT.ai

  • *liczba pobrań w okresie od 1 do 31 grudnia 2024 r.

Co dalej?

Użycie BgGPT stale rośnie. W bułgarskich agencjach rządowych, takich jak Narodowa Agencja Podatkowa (National Revenue Agency, NRA), rozpoczęły się programy pilotażowe, które mają na celu przetestowanie skuteczności LLM w specyficznych scenariuszach. INSAIT wyraził też zainteresowanie rozszerzeniem zasięgu BgGPT na inne obszary, takie jak edukacja, administracja publiczna i automatyzacja biznesowa.

Pracownicy INSAIT, którzy są pasjonatami, deweloperami, badaczami i akademikami, są zaangażowani w rozwój technologii AI w Europie Wschodniej i poza nią. W przyszłości INSAIT planuje ulepszyć BgGPT, m.in. poprzez potencjalne włączenie wywoływania funkcji i dalsze dostrojenie większych modeli bazowych oraz modeli do trenowania w przypadku innych krajów.