INSAIT が Gemma 2 を使用してブルガリア初の LLM を開発
コンピュータ サイエンス、人工知能、テクノロジー研究所(INSAIT)は、ブルガリアの首都ソフィアにある世界クラスの研究機関です。2022 年の創立以来、INSAIT は、テクノロジーの可能性を追求する世界中のトップの学者や研究者を惹きつけています。ブルガリアでの LLM の利用を拡大するために、INSAIT は BgGPT を作成しました。これは、ブルガリア語と英語の会話と指示ベースのタスクを理解するブルガリア語の大規模言語モデル(LLM)です。
BgGPT の基盤として他のモデルを試した後、BgGPT チームは、ブルガリア語と英語で比較的優れたパフォーマンスを発揮し、サイズもコンパクトな Google の Gemma オープンモデル ファミリーがこのタスクに最適であると判断しました。Gemma の優れた言語機能を使用することで、INSAIT ははるかに効率的で効果的なバイリンガル モデルを作成できました。
課題
INSAIT は、世界の LLM の多くが英語または中国語などの東洋の言語に重点を置いているため、ブルガリア語で優れた自然言語処理(NLP)モデルがないことを確認しました。モデルが不足しているため、運用コストを抑えながら、ブルガリア語と文化のニュアンスを深く理解する会話型 AI エージェントが不足していました。INSAIT は、ブルガリアと東ヨーロッパを AI の世界に確立するには、強力で正確なパフォーマンスを備えた独自の LLM を構築する必要があることを知っていました。

ソリューション
INSAIT の研究者は、ブルガリア語を話すデベロッパーとユーザーの幅広いニーズに対応するために BgGPT を作成しました。このモデルのパラメータ サイズは 27B、9B、2B です。27B と 9B の両方のバリエーションは、ブルガリア語で Alibaba の Qwen 2.5 72B や Meta の Llama 3.1 70B などの大規模なモデルを上回っています。一方、2B バージョンは、Microsoft の Phi 3.5 や Alibaba の Qwen 2.5 3B などの他の小規模言語モデルよりも優れています。3 つのモデルはすべて、Gemma 2 の優れた言語能力により、英語のパフォーマンスを維持しています。
「Gemma は、ファインチューニングのための堅牢でスケーラブルな基盤を提供することで、ブルガリア語 NLP で最先端のパフォーマンスを実現するのに役立ちます。」
BgGPT は、約 850 億個のブルガリア語トークンと 150 億個の英語トークンで事前トレーニングされています。BgGPT の開発で特にユニークな要素の 1 つは、INSAIT 独自の分岐と統合の継続的な事前トレーニング戦略の使用です。これにより、モデルは、Gemma の数学や英語に関する深い理解などの古い情報を置き換えたり失ったりすることなく、ブルガリア語などの新しい情報を学習できます。この現象は「カタストロフィック フォーゲティング」と呼ばれ、LLM 開発において引き続き課題となっています。

効果
BgGPT は、27B と 2B の両方のバリエーションを使用して、BgGPTt.ai のパブリック チャット プラットフォームを強化しています。2B モデルは、ユーザークエリの言い換えや分類などの特定のタスクを処理し、27B モデルは会話要素を処理します。2024 年 3 月のリリース以来、BgGPT.ai は数百万件のユーザーの質問に回答してきました。BgGPT のリリースにより、INSAIT は中央ヨーロッパと東ヨーロッパで初めて一般公開された競争力のある LLM をリリースした組織となり、この地域のリーダーとしての地位を確立しました。
INSAIT は、AI モデルの成長を急速に加速させる可能性のある、継続的な事前トレーニング戦略であるBranch-and-Merge をデベロッパーと共有しました。また、トレーニング パイプライン全体も共有しています。以前のデータを失うことなく LLM のナレッジベースを継続的に拡張できるため、トレーニングの効率が向上し、LLM がよりスマートになります。
48,000 件以上
Hugging Face でのダウンロード数*
500 万
BgGPT.ai で回答された質問
- *2024 年 12 月 1 日~ 12 月 31 日のダウンロード数
次のステップ
BgGPT の導入は引き続き拡大しています。ブルガリアの国家税務局(NRA)などの政府機関で試験運用プログラムが開始され、特殊なシナリオでの LLM の有効性がテストされています。INSAIT は、BgGPT の適用範囲を教育、公共行政、ビジネス自動化などの他の分野に拡大することにも関心を示しています。
INSAIT の情熱的な開発者、研究者、学者は、東欧および海外で AI 技術を推進することに取り組んでいます。今後、INSAIT は、関数呼び出しの統合と、より大きなベースモデルと他の国のトレーニング モデルによるさらなるファインチューニングを検討し、BgGPT を改善する予定です。