Shpërndaje

INSAIT krijon LLM-në e parë bullgare me Gemma 2

Instituti për Shkenca Kompjuterike, Inteligjencë Artificiale dhe Teknologji (INSAIT) është një organizatë kërkimore e klasit botëror në Sofje, Bullgari. Që nga themelimi i tij në 2022, INSAIT ka tërhequr akademikë dhe studiues të mirë nga e gjithë bota që kërkojnë të avancojnë atë që është e mundur në teknologji. Në përpjekjen e tij për të zgjeruar aksesin e LLM në Bullgari, INSAIT krijoi BgGPT , një model i gjuhës së madhe bullgare (LLM) që kupton detyrat bisedore dhe të bazuara në udhëzime në bullgarisht dhe anglisht.

Pas eksperimentimit me modele të tjera për fondacionin e BgGPT, ekipi BgGPT vendosi që familja e modeleve të hapura të Google Gemma ishte më e përshtatshme për këtë detyrë, falë performancës së saj relativisht më të mirë në bullgarisht dhe anglisht dhe madhësisë së saj kompakte. Duke përdorur aftësitë gjuhësore superiore të Gemma, INSAIT ishte në gjendje të krijonte një model dygjuhësh shumë më efikas dhe efektiv.

Sfida

INSAIT vuri re një mungesë të modeleve të forta të Përpunimit të Gjuhës Natyrore (NLP) në bullgarisht, pasi shumica e LLM-ve në botë janë të përqendruara në anglisht ose gjuhë lindore si kinezisht. Mungesa e modeleve nënkuptonte gjithashtu mungesën e agjentëve bisedues të AI që kuptonin thellësisht gjuhën bullgare dhe nuancat kulturore duke mbajtur gjithashtu një kosto të arsyeshme operacionale. INSAIT e dinte se nëse do të donin të krijonin një prani për Bullgarinë dhe Evropën Lindore në botën e AI, do të duhej të krijonin LLM-në e tyre me performancë të fuqishme dhe të saktë.

Krahasimi i performancës së LLM-ve në bullgarisht.
Grafik që krahason performancën bullgare të LLM-ve më të mirë.

Zgjidhja

Studiuesit e INSAIT krijuan BgGPT për të mbuluar një gamë të gjerë nevojash për zhvilluesit dhe përdoruesit bullgarishtfolës. Modeli vjen në madhësi parametrash 27B, 9B dhe 2B. Të dy variantet 27B dhe 9B tejkalojnë modelet më të mëdha si Qwen 2.5 72B e Alibaba dhe Llama 3.1 70B e Metës në bullgarisht. Ndërkohë, versioni 2B tejkalon modelet e tjera të gjuhëve të vogla si Phi 3.5 i Microsoft dhe Qwen 2.5 3B i Alibaba. Të tre modelet ruajnë performancën konkurruese në anglisht, falë aftësive gjuhësore mbresëlënëse të Gemma 2.

"Gemma na ndihmon të arrijmë performancën më të fundit në NLP bullgare duke ofruar një bazë të fortë dhe të shkallëzuar për akordim të imët."

— Anton Alexandrov, Doktorant në INSAIT

BgGPT ishte trajnuar paraprakisht në rreth 85B bullgarë dhe 15B në anglisht. Një nga elementët më të veçantë të zhvillimit të BgGPT ishte përdorimi i strategjisë së vazhdueshme para-trajnuese të INSAIT-it Branch-and-Merge , e cila i mundëson modelit të mësojë informacione të reja si bullgarishtja pa zëvendësuar ose humbur informacionin e vjetër, si kuptimi i thellë i matematikës dhe anglishtes nga Gemma. Ky fenomen quhet "harresa katastrofike" dhe mbetet një sfidë e përsëritur në zhvillimin e LLM.

Strategjia e para-trajnimit Brand-and-Mege.
Grafiku i rrjedhës që dokumenton strategjinë e para-trajnimit Branch-and-Mege.

Ndikimi

BgGPT tani fuqizon platformën e bisedës publike në BgGPTt.ai duke përdorur të dy variantet e saj 27B dhe 2B. Modelet 2B trajtojnë detyra specifike si riformulimi i pyetjeve të përdoruesve dhe klasifikimi, ndërsa modeli 27B trajton elementet bisedore. Që nga publikimi i tij në Mars 2024, BgGPT.ai u është përgjigjur miliona pyetjeve të përdoruesve. Lëshimi i BgGPT e bën gjithashtu INSAIT organizatën e parë në Evropën Qendrore dhe Lindore që nis një LLM konkurrues globalisht të zhvilluar publikisht , duke e vendosur organizatën si një lider në rajon.

INSAIT ka ndarë gjithashtu strategjinë e tij të para-trajnimit të vazhdueshëm Branch-and-Merge me zhvilluesit, e cila ka potencialin për të përshpejtuar me shpejtësi rritjen e modeleve të AI. Ajo gjithashtu ka ndarë të gjithë linjën e saj të trajnimit . Aftësia për të zgjeruar vazhdimisht bazën e njohurive të një LLM pa humbje të të dhënave paraprake qëndron për të përmirësuar efikasitetin e trajnimit dhe për t'i bërë LLM-të më të zgjuar.

48k+

Shkarkime në Fytyrën e përqafuar*

5 milion

Pyetjet e përgjigjura në BgGPT.ai

  • *numri i shkarkimeve nga 1 dhjetori deri më 31 dhjetor 2024

Çfarë është më pas

Miratimi i BgGPT vazhdon të rritet. Programet pilot kanë filluar në agjencitë qeveritare bullgare si Agjencia Kombëtare e të Ardhurave (NRA), duke testuar efektivitetin e LLM në skenarë të specializuar. INSAIT ka shprehur gjithashtu interes për zgjerimin e shtrirjes së BgGPT në fusha të tjera si arsimi, administrata publike dhe automatizimi i biznesit.

Zhvilluesit, studiuesit dhe akademikët e pasionuar në INSAIT janë të përkushtuar për të çuar më tej teknologjinë e AI në Evropën Lindore dhe jashtë saj. Duke parë përpara, INSAIT planifikon të përmirësojë BgGPT me përfshirjen e mundshme të thirrjes së funksionit dhe akordim të mëtejshëm të imët me modele bazë më të mëdha, si dhe modele trajnimi për vende të tjera.