分享

INSAIT 使用 Gemma 2 打造出保加利亞首個 LLM

電腦科學、人工智慧與技術研究所(INSAIT) 是位於保加利亞索菲亞的頂尖研究機構。自 2022 年成立以來,INSAIT 吸引了來自世界各地的頂尖學者和研究人員,致力於開發新技術。為擴大保加利亞的 LLM 可用性,INSAIT 開發了 BgGPT,這是一種保加利亞大型語言模型 (LLM),可理解保加利亞文和英文的對話和指令式工作。

在嘗試使用其他模型做為 BgGPT 基礎後,BgGPT 團隊決定採用 Google 的 Gemma 開放式模型系列,因為該模型在保加利亞文和英文的表現較佳,且體積較小。透過 Gemma 的優異語言能力,INSAIT 得以建立更有效率且有效的雙語模型。

難題

INSAIT 發現,目前沒有強大的保加利亞語自然語言處理 (NLP) 模型,因為全球的大型語言模型大多著重於英文或中文等東方語言。模型數量稀少,也意味著缺乏能深入瞭解保加利亞語言和文化細節的對話式 AI 代理,同時還能維持合理的營運成本。INSAIT 知道,如果想讓保加利亞和東歐在 AI 領域占有一席之地,就必須自行設計 LLM,並確保其效能強大且準確。

比較保加利亞語的 LLM 成效。
圖表比較了主要 LLM 的保加利亞成效。

解決方案

INSAIT 研究人員開發了 BgGPT,以滿足以保加利亞文為母語的開發人員和使用者的需求。這個模型的參數大小有 27B、9B 和 2B。無論是 27B 還是 9B 變化版本,在保加利亞語的測試中,都比 Alibaba 的 Qwen 2.5 72B 和 Meta 的 Llama 3.1 70B 等大型模型表現更好。同時,2B 版本的表現優於其他小型語言模型,例如 Microsoft 的 Phi 3.5 和 Alibaba 的 Qwen 2.5 3B。三個模型都具備 Gemma 2 的優異語言能力,因此在英文測試中表現出色。

「Gemma 提供穩固且可擴充的基礎,讓我們能精細調整,在保加利亞語言處理方面達到最先進的效能。」

- INSAIT 博士生 Anton Alexandrov

BgGPT 是使用約 850 億個保加利亞符記和 150 億個英文符記進行預先訓練。BgGPT 開發過程中,最特別的元素之一就是使用 INSAIT 自有的分支與合併持續性預先訓練策略,讓模型能夠學習保加利亞語等新資訊,而不必取代或遺失舊資訊,例如 Gemma 對數學和英文的深刻理解。這種現象稱為「災難性遺忘」,仍是 LLM 開發中反覆出現的挑戰。

品牌和合併預先訓練策略。
流程圖:記錄分支與合併預先訓練策略。

影響

BgGPT 目前使用 27B 和 2B 變體,為 BgGPTt.ai 的公開聊天平台提供支援。2B 模型會處理特定任務,例如重新表達使用者查詢和分類,而 27B 模型則會處理對話元素。自 2024 年 3 月推出以來,BgGPT.ai 已回答數百萬個使用者問題。BgGPT 的發布也讓 INSAIT 成為中歐和東歐地區第一個推出公開開發的 LLM 的機構,並成為該地區的領導者。

INSAIT 也與開發人員分享了「分支與合併」持續預先訓練策略,這有助於快速提升 AI 模型的成長速度。並分享整個訓練管道。持續擴充 LLM 知識庫,且不會遺失先前資料,這項能力可提高訓練效率,並讓 LLM 更聰明。

48k+

Hugging Face 上的下載次數*

500 萬

在 BgGPT.ai 上回答的問題

  • *2024 年 12 月 1 日至 12 月 31 日的下載次數

後續步驟

BgGPT 的採用率持續攀升。保加利亞國家稅務局 (NRA) 等政府機關已開始試行計畫,測試 LLM 在特定情境下的成效。INSAIT 也表示有意將 BgGPT 的應用範圍擴大到教育、公共行政和業務自動化等其他領域。

熱情的開發人員、研究人員和學者在 INSAIT 致力於推動東歐和海外的 AI 技術。展望未來,INSAIT 計畫改善 BgGPT,可能會整合函式呼叫,並進一步微調更大型的基本模型,以及其他國家/地區的訓練模型。