Gemma 2 模型卡

模型頁面Gemma

資源和技術說明文件

使用條款條款

作者:Google

型號資訊

輸入和輸出內容的摘要說明和簡要定義。

說明

Gemma 是 Google 推出的一系列先進模型,採用與建立 Gemini 模型相同的研究和技術。這種語言模型是文字轉文字,而且只用於解碼器的大型語言模型 (僅提供英文版),其中預先訓練的變化版本和經過指示微調的變體均提供開放式權重。Gemma 模型非常適合用於各種文字產生工作,包括問題回答、摘要和推理。由於規模相對較小,因此可以在資源有限的環境中 (例如筆記型電腦、桌上型電腦或您的雲端基礎架構) 進行部署,讓所有人都能輕鬆使用最先進的 AI 模型,並協助所有人推動創新。

輸入和輸出

  • 輸入內容:文字字串,例如問題、提示或要摘要的文件。
  • 輸出:為回應輸入內容產生的英文文字,例如問題的答案或文件摘要。

引文

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

模型資料

用於模型訓練的資料以及資料處理方式。

訓練資料集

這些模型是以包含各種來源的文字資料資料集訓練而成。270 億個模型利用 13 兆個符記訓練而成,90 億個模型則使用 8 兆個符記訓練。主要元件如下:

  • 網路文件:多樣化的網路文字集合,可確保模型能接觸到各種語言風格、主題和詞彙。主要為英文內容
  • 程式碼:將模型公開給模型,有助模型學習程式設計語言的語法和模式,提升其產生程式碼的能力或瞭解程式碼相關問題。
  • 數學:以數學文字進行訓練,有助於模型學習邏輯推理、符號表示法,並處理數學查詢。

如要訓練可處理各種工作和文字格式的強大語言模型,結合這些不同的資料來源至關重要。

資料預先處理

以下為訓練資料適用的重要資料清理和篩選方法:

  • 過濾兒少性虐待內容:我們在資料準備程序中的多個階段套用了嚴格的兒少性虐待內容 (兒少性虐待內容) 篩選功能,確保排除有害和非法內容。
  • 機密資料篩選:為確保 Gemma 預先訓練模型安全無虞且可靠,我們使用自動化技術將訓練集中的特定個人資訊和其他機密資料篩除。
  • 其他方法:根據內容品質和安全性篩選符合我們的政策

導入資訊

關於模型內部的詳細資訊。

硬體

Gemma 是以最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5p) 訓練。

訓練大型語言模型需要龐大的運算能力。TPU 是專為機器學習常見的矩陣運算而設計,在本領域具備以下幾項優點:

  • 效能:TPU 專門用於處理訓練 LLM 中的大量運算,與 CPU 相比,這類模型能大幅加快訓練速度。
  • 記憶體:TPU 通常會配備大量的高頻寬記憶體,以便在訓練期間處理大型模型和批次大小。這可以提升模型品質。
  • 擴充性:TPU Pod (大型 TPU 叢集) 針對大型基礎模型日益複雜,提供可擴充的解決方案。您可以在多部 TPU 裝置上分配訓練,以提升處理速度和效率。
  • 成本效益:在許多情況下,與以 CPU 為基礎的基礎架構相比,TPU 提供訓練大型模型的更符合成本效益的解決方案,尤其是考量更快訓練速度所節省的時間與資源時。
  • 這些優勢符合 Google 的永續發展承諾

軟體

訓練課程是透過 JAXML Pathways 完成。

JAX 可讓研究人員利用 TPU 等最新一代的硬體,加快大型模型的訓練速度和效率。

機器學習路徑 (ML Pathways) 是 Google 全力打造人為智慧系統的最新產品,可一般處理多項任務並套用一般化技術。這特別適用於基礎模型,包括這類模型等大型語言模型。

JAX 和 ML Pathways 會共同用於 Gemini 模型系列論文中的說明;「Jax 和 Pathways 的「單一控制器」程式設計模型可讓一個 Python 程序自動化調度管理整個訓練作業,大幅簡化開發工作流程。」

評估作業

模型評估指標和結果。

基準結果

我們會根據大量的不同資料集和指標評估這些模型,以涵蓋文字生成的不同層面:

Benchmark 指標 Gemma PT 9B Gemma PT 27B
菜單 5 張鏡頭,Top-1 71.3 75.2
HellaSwag 10 張 81.9 人 86.4
PIQA 0 桿 81.7 83.2
SocialIQA 0 桿 53.4 53.7
BoolQ 0 桿 84.2 84.8
WinoGrande 部分分數 80.6 83.7
ARC-e 0 桿 88.0 88.6
ARC-c 25 張 68.4 71.4
TriviaQA 5 張 76.6 83.7
自然問題 5 張 29.2 34.5
HumanEval Pass@1 40.2 版 51.8
MBPP 3 張 52.4 62.6
GSM8K 5 鏡頭、maj@1 68.6 74.0
MATH 4 桿 36.6 42.3
AGIEval 3 到 5 個畫面 52.8 55.1
BIG-Bench 3 球,科 T 68.2 74.9

倫理與安全

倫理和安全評估方法和結果。

評估方法

我們的評估方法包括結構化評估,以及相關內容政策的內部紅隊測試。紅隊由多個不同的團隊執行,每個團隊都有不同的目標和人工評估指標。我們會根據許多與倫理和安全相關的各種類別評估這些模型,包括:

  • 文字轉文字內容安全:以人工方式評估有關安全政策的內容,包括兒少性虐待及剝削、騷擾、暴力和血腥內容。
  • Text-to-Text 表示法損害:依據相關學術資料集 (例如 WinoBiasBBQ 資料集) 進行基準測試。
  • 記憶:自動評估訓練資料,包括個人識別資訊洩露的風險。
  • 大規模傷害:測試「危險功能」,例如化學、生物、放射和核子 (CBRN) 風險。

評估結果

針對兒童安全、內容安全、陳述危害、記憶、大規模危害等類別,倫理和安全評估的結果均在可接受的門檻範圍內,符合內部政策規定。除了強大的內部評估外,這裡會顯示知名的安全性基準,例如:烤肉、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA。

Gemma 2.0

Benchmark 指標 Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity 平均 8:25 8.84
烏鴉配對 top-1 37.47 36.67
BBQ 阿米比文 1 張攝影效果,最佳-1 88.58 85.99 人
BBQ 料理 top-1 82.67 86.94
Winogender top-1 79.17 77:22
TruthfulQA 50:27 51.60 美元
溫比亞 1_2 78.09 分 81.94
溫比亞 2_2 95:32 97:22
土製 39.30 38.42

使用與限制

這些模型有某些限制,而使用者應留意。

預定用途

開放式大型語言模型 (LLM) 在各種產業和領域都有各式各樣的應用程式。以下清單並未完整說明可能的用途。這份清單的目的是提供模型建立者在訓練和開發模型中可能考慮到的可能用途情境資訊。

  • 內容創作與溝通
    • 文字產生:這些模型可用來產生創意文字格式,例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿。
    • 聊天機器人和對話式 AI:強大的對話介面,適用於客戶服務、虛擬助理或互動式應用程式。
    • 文字摘要:產生文字語料庫、研究論文或報告的精簡摘要。
  • 研究和教育
    • 自然語言處理 (NLP) 研究:這些模型可做為研究人員的基礎,方便研究人員測試自然語言處理技術、開發演算法,以及促進領域的進展。
    • 語言學習工具:支援互動式語言學習體驗 可修正文法或提供寫作練習
    • 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字。

限制

  • 訓練資料
    • 訓練資料的品質與多元性會大幅影響模型的功能。訓練資料中的偏誤或缺口可能會導致模型回應受到限制。
    • 訓練資料集的範圍會決定模型可有效處理的主題區域。
  • 情境和工作複雜度
    • 如果工作須提供明確的提示和操作說明,LLM 較適合用來處理這類工作。開放式或高度複雜的工作可能具有挑戰性。
    • 模型的效能可能會受到提供的背景資訊量影響 (一般的脈絡量越長,通常輸出效果更好,直到達到一定程度)。
  • 語言模糊度和細微差異
    • 自然語言本質上就很複雜。LLM 可能難以理解細微的細微差異、諷刺或代表性的用語。
  • 事實準確性
    • LLM 會根據從訓練資料集學習到的資訊生成回覆,但他們不是知識庫。他們可能會生成錯誤或過時的事實陳述。
  • Common Sense
    • LLM 仰賴的語言統計模式。他們在特定情況下 可能無法運用常識推理

倫理考量和風險

大型語言模型 (LLM) 的開發會引發許多倫理疑慮。建立開放式模型時,我們會仔細考量下列事項:

  • 偏誤和公平性
    • 以大規模的實際文字資料訓練的 LLM 可以反映訓練教材中嵌入的社會文化偏誤。這些模型會仔細審查、預先處理輸入資料,以及這張資訊卡中報告的後續評估。
  • 不實資訊和濫用
    • LLM 可能遭到濫用,產生不實、具誤導性或有害的文字。
    • 我們提供了關於如何以負責任的方式使用模型的指南,請參閱負責任的生成式 AI 工具包
  • 資訊公開和當責:
    • 這張模型資訊卡概略說明模型的架構、功能、限制和評估程序。
    • 負責任的開發開放模型為 AI 生態系統中的開發人員和研究人員提供 LLM 技術,讓您有機會分享創新。

識別的風險和緩解措施:

  • 延續偏誤:建議您在模型訓練、微調及其他用途期間,執行持續監控 (使用評估指標、人工審查) 並探索去偏誤技術。
  • 產生有害內容:確保內容安全機制的機制和指南相當重要我們鼓勵開發人員根據特定產品政策和應用程式用途,採取適當措施,並採取適當的內容安全保護措施。
  • 誤用為惡意用途:技術限制以及開發人員和使用者教育程度,有助於防範 LLM 的惡意應用程式。我們提供教育資源和檢舉機制,方便使用者檢舉濫用行為。有關 Gemma 模型使用限制的說明,請參閱《Gemma 使用限制政策》。
  • 隱私權違規:模型的訓練資料會篩選掉 PII (個人識別資訊)。我們建議開發人員遵守隱私權法規和保護隱私權的技術。

優點

發布時,這一系列的模型提供高效能的開放大型語言模型實作項目,適用於「負責任的 AI 開發」開發方式,與規模相近的模型相比。

我們根據本文件所述的基準評估指標,已證實這些模型能為其他大小相近的開放模型替代項目提供卓越效能。