INSAIT entwickelt mit Gemma 2 das erste LLM in Bulgarien

Das INSAIT(Institute for Computer Science, Artificial Intelligence and Technology) ist eine weltweit führende Forschungsorganisation in Sofia, Bulgarien. Seit seiner Gründung im Jahr 2022 hat INSAIT führende Akademiker und Forscher aus der ganzen Welt angezogen, die die Möglichkeiten der Technologie vorantreiben möchten. Im Rahmen seiner Bemühungen, die LLM-Zugänglichkeit in Bulgarien zu verbessern, hat INSAIT BgGPT entwickelt, ein bulgarisches Large Language Model (LLM), das Konversations- und anweisungsbasierte Aufgaben auf Bulgarisch und Englisch versteht.

Nachdem das BgGPT-Team mit anderen Modellen für die Grundlage von BgGPT experimentiert hatte, entschied es sich, die offene Modellfamilie Gemma von Google zu verwenden. Diese eignet sich aufgrund ihrer vergleichsweise besseren Leistung auf Bulgarisch und Englisch und ihrer kompakten Größe am besten für die Aufgabe. Mit den überlegenen Sprachfunktionen von Gemma konnte INSAIT ein weitaus effizienteres und effektiveres zweisprachiges Modell erstellen.

Die Herausforderung

INSAIT stellte fest, dass es keine leistungsstarken Modelle für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) auf Bulgarisch gibt, da sich die meisten LLMs der Welt auf Englisch oder östliche Sprachen wie Chinesisch konzentrieren. Die Knappheit der Modelle bedeutete auch einen Mangel an Konversations-KI-Agenten, die die bulgarische Sprache und kulturelle Nuancen gut verstehen und gleichzeitig angemessene Betriebskosten beibehalten. INSAIT wusste, dass es, wenn es eine Präsenz für Bulgarien und Osteuropa in der Welt der künstlichen Intelligenz schaffen wollte, ein eigenes LLM mit leistungsstarker und präziser Leistung entwickeln musste.

Leistungsvergleich von LLMs auf Bulgarisch

Diagramm, in dem die Leistung der besten LLMs in Bulgarien verglichen wird.

Die Lösung

Die INSAIT-Forscher haben BgGPT entwickelt, um eine breite Palette von Anforderungen für bulgarischsprachige Entwickler und Nutzer zu erfüllen. Das Modell ist in den Parametergrößen 27 B, 9 B und 2 B verfügbar. Sowohl die 27 Milliarden- als auch die 9 Milliarden-Variante übertreffen größere Modelle wie Qwen 2.5 72B von Alibaba und Llama 3.1 70B von Meta auf Bulgarisch. Die 2B-Version übertrifft unterdessen andere kleine Sprachmodelle wie Phi 3.5 von Microsoft und Qwen 2.5 3B von Alibaba. Dank der beeindruckenden sprachlichen Fähigkeiten von Gemma 2 können alle drei Modelle eine wettbewerbsfähige Leistung in englischer Sprache erzielen.

„Gemma hilft uns, eine Spitzenleistung bei der bulgarischen NLP zu erzielen, da es eine robuste, skalierbare Grundlage für die Feinabstimmung bietet.“

– Anton Alexandrov, Doktorand am INSAIT

BgGPT wurde mit etwa 85 Milliarden bulgarischen und 15 Milliarden englischen Tokens vortrainiert. Eines der einzigartigen Elemente bei der Entwicklung von BgGPT war die Verwendung der kontinuierlichen Vorab-Trainingsstrategie Branch-and-Merge von INSAIT. Dadurch kann das Modell neue Informationen wie Bulgarisch lernen, ohne alte Informationen zu ersetzen oder zu verlieren, z. B. Gemmas fundiertes Wissen in Mathematik und Englisch. Dieses Phänomen wird als „katastrophaler Vergessen“ bezeichnet und bleibt eine wiederkehrende Herausforderung bei der Entwicklung von LLMs.

Flussdiagramm zur Dokumentation der Branch-and-Merge-Vorabtrainingsstrategie

Die Auswirkungen

BgGPT wird jetzt sowohl mit der 27B- als auch der 2B-Variante für die öffentliche Chatplattform unter BgGPTt.ai verwendet. Die 2B-Modelle übernehmen bestimmte Aufgaben wie die Umformulierung von Nutzeranfragen und die Klassifizierung, während das 27B-Modell für die Konversationselemente zuständig ist. Seit der Veröffentlichung im März 2024 hat BgGPT.ai Millionen von Nutzerfragen beantwortet. Mit der Veröffentlichung von BgGPT ist INSAIT auch die erste Organisation in Mittel- und Osteuropa, die eine weltweit wettbewerbsfähige öffentlich entwickelte LLM auf den Markt bringt. Damit etabliert sich die Organisation als führend in der Region.

INSAIT hat Entwicklern auch seine fortlaufende Strategie für das Branch-and-Merge-Vortraining mitgeteilt, mit der sich das Wachstum von KI-Modellen schnell beschleunigen lässt. Außerdem hat das Unternehmen seine gesamte Trainingspipeline geteilt. Die Möglichkeit, die Wissensdatenbank eines LLMs kontinuierlich zu erweitern, ohne dass dabei bisherige Daten verloren gehen, kann die Trainingseffizienz verbessern und LLMs intelligenter machen.

48.000 +

Downloads bei Hugging Face*

5 Mio.

Auf BgGPT.ai beantwortete Fragen

*Anzahl der Downloads vom 1. Dezember bis zum 31. Dezember 2024

Weiteres Vorgehen

Die Nutzung von BgGPT nimmt weiter zu. In bulgarischen Behörden wie der National Revenue Agency (NRA) wurden Pilotprogramme gestartet, in denen die Effektivität der LLM in speziellen Szenarien getestet wird. INSAIT hat auch Interesse bekundet, die Reichweite von BgGPT auf andere Bereiche wie Bildung, öffentliche Verwaltung und Automatisierung von Unternehmen auszuweiten.

Die leidenschaftlichen Entwickler, Forscher und Akademiker von INSAIT setzen sich für die Weiterentwicklung der KI-Technologie in Osteuropa und im Ausland ein. Künftig plant INSAIT, BgGPT durch die mögliche Einbindung von Funktionsaufrufen und eine weitere Feinabstimmung mit größeren Basismodellen sowie Trainingsmodellen für andere Länder zu verbessern.

INSAIT entwickelt mit Gemma 2 das erste LLM in Bulgarien

Die Herausforderung

Die Lösung

Die Auswirkungen

Weiteres Vorgehen

Ähnliche Fallstudien