INSAIT 使用 Gemma 2 打造出保加利亞首個 LLM
難題
INSAIT 發現,目前沒有強大的保加利亞語自然語言處理 (NLP) 模型,因為全球的大型語言模型大多著重於英文或中文等東方語言。模型數量稀少,也意味著缺乏能深入瞭解保加利亞語言和文化細節的對話式 AI 代理,同時還能維持合理的營運成本。INSAIT 知道,如果想讓保加利亞和東歐在 AI 領域占有一席之地,就必須自行設計 LLM,並確保其效能強大且準確。

解決方案
INSAIT 研究人員開發了 BgGPT,以滿足以保加利亞文為母語的開發人員和使用者的需求。這個模型的參數大小有 27B、9B 和 2B。無論是 27B 還是 9B 變化版本,在保加利亞語的測試中,都比 Alibaba 的 Qwen 2.5 72B 和 Meta 的 Llama 3.1 70B 等大型模型表現更好。同時,2B 版本的表現優於其他小型語言模型,例如 Microsoft 的 Phi 3.5 和 Alibaba 的 Qwen 2.5 3B。三個模型都具備 Gemma 2 的優異語言能力,因此在英文測試中表現出色。
「Gemma 提供穩固且可擴充的基礎,讓我們能精細調整,在保加利亞語言處理方面達到最先進的效能。」
BgGPT 是使用約 850 億個保加利亞符記和 150 億個英文符記進行預先訓練。BgGPT 開發過程中,最特別的元素之一就是使用 INSAIT 自有的分支與合併持續性預先訓練策略,讓模型能夠學習保加利亞語等新資訊,而不必取代或遺失舊資訊,例如 Gemma 對數學和英文的深刻理解。這種現象稱為「災難性遺忘」,仍是 LLM 開發中反覆出現的挑戰。

影響
48k+
Hugging Face 上的下載次數*
500 萬
在 BgGPT.ai 上回答的問題
- *2024 年 12 月 1 日至 12 月 31 日的下載次數
後續步驟
BgGPT 的採用率持續攀升。保加利亞國家稅務局 (NRA) 等政府機關已開始試行計畫,測試 LLM 在特定情境下的成效。INSAIT 也表示有意將 BgGPT 的應用範圍擴大到教育、公共行政和業務自動化等其他領域。
熱情的開發人員、研究人員和學者在 INSAIT 致力於推動東歐和海外的 AI 技術。展望未來,INSAIT 計畫改善 BgGPT,可能會整合函式呼叫,並進一步微調更大型的基本模型,以及其他國家/地區的訓練模型。