INSAIT 使用 Gemma 2 打造出保加利亞首個 LLM

電腦科學、人工智慧與技術研究所(INSAIT) 是位於保加利亞索菲亞的頂尖研究機構。自 2022 年成立以來，INSAIT 吸引了來自世界各地的頂尖學者和研究人員，致力於開發新技術。為擴大保加利亞的 LLM 可用性，INSAIT 開發了 BgGPT，這是一種保加利亞大型語言模型 (LLM)，可理解保加利亞文和英文的對話和指令式工作。

在嘗試使用其他模型做為 BgGPT 基礎後，BgGPT 團隊決定採用 Google 的 Gemma 開放式模型系列，因為該模型在保加利亞文和英文的表現較佳，且體積較小。透過 Gemma 的優異語言能力，INSAIT 得以建立更有效率且有效的雙語模型。

難題

INSAIT 發現，目前沒有強大的保加利亞語自然語言處理 (NLP) 模型，因為全球的大型語言模型大多著重於英文或中文等東方語言。模型數量稀少，也意味著缺乏能深入瞭解保加利亞語言和文化細節的對話式 AI 代理，同時還能維持合理的營運成本。INSAIT 知道，如果想讓保加利亞和東歐在 AI 領域占有一席之地，就必須自行設計 LLM，並確保其效能強大且準確。

圖表比較了主要 LLM 的保加利亞成效。

解決方案

INSAIT 研究人員開發了 BgGPT，以滿足以保加利亞文為母語的開發人員和使用者的需求。這個模型的參數大小有 27B、9B 和 2B。無論是 27B 還是 9B 變化版本，在保加利亞語的測試中，都比 Alibaba 的 Qwen 2.5 72B 和 Meta 的 Llama 3.1 70B 等大型模型表現更好。同時，2B 版本的表現優於其他小型語言模型，例如 Microsoft 的 Phi 3.5 和 Alibaba 的 Qwen 2.5 3B。三個模型都具備 Gemma 2 的優異語言能力，因此在英文測試中表現出色。

「Gemma 提供穩固且可擴充的基礎，讓我們能精細調整，在保加利亞語言處理方面達到最先進的效能。」

- INSAIT 博士生 Anton Alexandrov

BgGPT 是使用約 850 億個保加利亞符記和 150 億個英文符記進行預先訓練。BgGPT 開發過程中，最特別的元素之一就是使用 INSAIT 自有的分支與合併持續性預先訓練策略，讓模型能夠學習保加利亞語等新資訊，而不必取代或遺失舊資訊，例如 Gemma 對數學和英文的深刻理解。這種現象稱為「災難性遺忘」，仍是 LLM 開發中反覆出現的挑戰。

流程圖：記錄分支與合併預先訓練策略。

影響

BgGPT 目前使用 27B 和 2B 變體，為 BgGPTt.ai 的公開聊天平台提供支援。2B 模型會處理特定任務，例如重新表達使用者查詢和分類，而 27B 模型則會處理對話元素。自 2024 年 3 月推出以來，BgGPT.ai 已回答數百萬個使用者問題。BgGPT 的發布也讓 INSAIT 成為中歐和東歐地區第一個推出公開開發的 LLM 的機構，並成為該地區的領導者。

INSAIT 也與開發人員分享了「分支與合併」持續預先訓練策略，這有助於快速提升 AI 模型的成長速度。並分享整個訓練管道。持續擴充 LLM 知識庫，且不會遺失先前資料，這項能力可提高訓練效率，並讓 LLM 更聰明。

48k+

Hugging Face 上的下載次數*

500 萬

在 BgGPT.ai 上回答的問題

*2024 年 12 月 1 日至 12 月 31 日的下載次數

後續步驟

BgGPT 的採用率持續攀升。保加利亞國家稅務局 (NRA) 等政府機關已開始試行計畫，測試 LLM 在特定情境下的成效。INSAIT 也表示有意將 BgGPT 的應用範圍擴大到教育、公共行政和業務自動化等其他領域。

熱情的開發人員、研究人員和學者在 INSAIT 致力於推動東歐和海外的 AI 技術。展望未來，INSAIT 計畫改善 BgGPT，可能會整合函式呼叫，並進一步微調更大型的基本模型，以及其他國家/地區的訓練模型。

INSAIT 使用 Gemma 2 打造出保加利亞首個 LLM

難題

解決方案

影響

後續步驟

相關個案研究