AI Singapore 推出 Gemma 2,讓 AI 技術更能包容東南亞
AI Singapore 於 2017 年成立,是全國性的 AI 研究機構和組織網路,致力於推動新加坡的 AI 發展。其中一個專案 SEA-LION 是一系列開放式模型,可將 LLM 的強大功能帶入先前 AI 界忽略的東南亞 (SEA) 國家。
為了提升詞彙和語言理解能力,並提高大小與效能比,SEA-LION 團隊選擇採用 Google 一系列輕量且高效的開放式模型 Gemma。有了 Gemma,SEA-LION 開發人員便能打造出功能強大、效率高且易於存取的 LLM,目前東南亞地區有數百萬人使用這項工具。
難題
SEA-LION 團隊發現,目前最受歡迎的 LLM 並未涵蓋該區域的許多語言,這表示該區域的部分地區和整個族群幾乎無法使用許多 AI 潛在應用程式。研究團隊也發現,即使這些主流 LLM 對東南亞當地語言有基本瞭解,但仍無法理解母語人士熟知的語言和文化差異。
新加坡 AI 技術總監 William Tjhi 解釋,全球大部分 AI 技術都是以西方和東方語言為基礎,因此在翻譯過程中可能會遺漏許多資訊:「全球 LLM 技術的發展主要圍繞著兩個機構:美國西岸和中國。這些模型會根據訓練時使用的資料集和語言,反映出特定的世界觀。」
「Gemma 的 Tokenizer 套用於我們所在地區的語言時,表現更佳。您可以在輸出內容中看到這項資訊。這可大幅提升在 SEA 符記訓練時的模型效能,因為與其他模型的剖字器相比,這個剖字器更為理想。」
解決方案
SEA-LION 團隊建立了一套包容的 LLM,準確反映該地區的細微差異、脈絡和文化多樣性。為了建立正確的 LLM,並真正瞭解全新語言,團隊需要多樣且高品質的訓練資料,因此決定與 Google DeepMind 和研究團隊合作。他們也與母語人士和語言學家合作,篩除來自賭博內容和廣告等來源的無關資料,確保翻譯內容準確且自然。
團隊最新版本的 SEA-LION V3 持續在 Gemma 2 上預先訓練,使用 2,000 億個 SEA 資料符記。團隊發現,Gemma 的分析器不僅包含更多指定語言的符記,成效也比其他模型更佳。由於在該區域的許多地方,執行大型模型所需的資源有限,因此我們選擇了 Gemma 的 90 億參數版本,因為這個版本的大小和效率都很理想。

影響
SEA-LION V3 是團隊目前最先進的版本,其他本土 AI 開發人員和研究人員也已開始使用。科技公司 GoTo 最近推出 Sahabat-AI,這是一套以 SEA-LION 為基礎的 LLM 生態系統,專為印尼開發人員打造。Sahabat-AI 已整合至 GoTo 的 Dira AI 語音助理,使用者可透過母語和方言語音指令,使用 Gojek 和 GoPay 付款服務。
GoTo 執行長 Patrick Walujo 表示,他希望 Sahabat-AI 能為印尼數百萬人帶來正面影響:「這項服務將有助於我們的企業以新方式與客戶溝通,並協助政府部門開發工具,以更全面的方式與民眾互動。」
11
東南亞語言能力
14k+
Hugging Face 上的下載
3,800 萬次
GoPay 每月活躍使用者可使用 Dira
後續步驟
AI Singapore 團隊已著手規劃 SEA-LION 的下一個版本。他們的目標是使用 Gemma 建立較小和較大的參數版本,以便因應更多用途,並為當地社群提供更大的彈性。SEA-LION 的成功對東南亞 AI 熱潮至關重要,而其他以此為基礎的大型語言模型 (例如 Sahabat-AI) 只是開端。
「AI Singapore 推出以 Gemma 為基礎的全新 SEA-LION v3,代表著包容性 AI 技術邁向重大進展。在運用 Google Gemma 2 的強大功能後,這個新模型在多項東南亞評估指標方面,都比先前版本表現出色。」Google DeepMind 資深總監 Manish Gupta 表示。「我們期待這項服務帶來更多精彩應用,並為東南亞各地的多元社群帶來更多益處。」