Gemma 模型資訊卡

模型頁面Gemma

資源和技術說明文件

使用條款條款

作者:Google

型號資訊

輸入和輸出內容的摘要說明和簡要定義。

說明

Gemma 是 Google 開發的一系列先進輕量模型系列,使用與建立 Gemini 模型相同的研究和技術建構而成。分別是文字轉文字、僅限解碼器的大型語言模型,支援英文,包括開放式權重、預先訓練的變化版本和指令調整變化版本。Gemma 模型非常適合各種文字生成工作,包括問題回答、摘要和推理。因為其規模相對較小,可在筆電、桌上型電腦或您自己的雲端基礎架構等資源有限的環境中進行部署,讓所有人都能使用最先進的 AI 模型,同時幫助每個人實現創新。

輸入和輸出

  • 「Input」:文字字串,例如問題、提示或文件的摘要。
  • 輸出:根據輸入內容產生英文文字,例如問題的答案或文件摘要。

引文

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

模型資料

用於模型訓練的資料及資料處理方式。

訓練資料集

這些模型是以文字資料資料集訓練而成,此資料集內含各種來源,總共 6 兆個符記。關鍵元件如下:

  • 網路文件:提供多元的網路文字集合,可確保模型接觸多種語言樣式、主題和詞彙。主要為英文內容。
  • 程式碼:將模型提供給程式碼,可讓模型瞭解程式設計語言的語法和模式,進而改善程式碼產生程式碼或理解程式碼相關問題的能力。
  • 數學:模型訓練可幫助模型學習邏輯合理、符號表示方式,以及解決數學查詢。

如要訓練能處理多種不同工作和文字格式的強大語言模型,就必須結合這些多元資料來源。

資料預先處理

以下是套用至訓練資料的關鍵資料清理和篩選方法:

  • 兒少性虐待內容篩選:我們在資料準備流程中的多個階段套用了嚴格的兒少性虐待內容 (兒少性虐待內容) 篩選功能,以確保排除有害和非法內容。
  • 機密資料篩選:為確保 Gemma 預先訓練的模型安全可靠,我們採用自動化技術,從訓練集中過濾掉特定個人資訊和其他機密資料。
  • 其他方法:根據我們的政策根據內容品質和安全性進行篩選。

導入作業資訊

模型內部詳細資料。

硬體

Gemma 使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 進行訓練。

訓練大型語言模型需要大量的運算能力。專為機器學習常見的矩陣運算設計的 TPU,在本領域提供許多優點:

  • 效能:TPU 專門用於處理訓練 LLM 涉及的大量運算。相較於 CPU,這類模型能大幅加快訓練速度。
  • 記憶體:TPU 通常隨附大量的高頻寬記憶體,以便在訓練期間處理大型模型和批次大小。這有助於提高模型品質。
  • 擴充性:TPU Pod (大型 TPU 叢集) 提供可擴充的解決方案,能處理不斷增長的大型基礎模型。您可以將訓練分散至多個 TPU 裝置,以加快處理速度和效率。
  • 成本效益:在許多情況下,相較於以 CPU 為基礎的基礎架構,TPU 可以在許多情況下提供更具成本效益的解決方案,可用來訓練大型模型,特別是在考量訓練速度較快而節省的時間和資源時。
  • 這些優勢與 Google 對永續發展的承諾一致。

軟體

訓練是使用 JAXML Pathways 訓練而成。

JAX 可讓研究人員利用 TPU 等最新一代的硬體,以更快、更有效率的方式訓練大型模型。

ML Pathways 是 Google 最新的成果,希望建構能在多項任務中通用的人工智慧系統。這種做法特別適合「基礎模型」,包括這類模型的大型語言模型。

JAX 和 ML Pathways 合稱為 Gemini 模型系列紙中的說明;「Jax 和 Pathways 的「單一控制器」程式設計模型可讓單一 Python 程序自動化調度管理整個訓練執行作業,大幅簡化開發工作流程。」

評估內容

模型評估指標和結果。

基準測試結果

這些模型是根據大量不同的資料集和指標進行評估,以涵蓋文字產生的不同層面:

Benchmark 指標 Gemma PT 2B Gemma PT 7B
MMLU 5 張鏡頭,Top-1 42.3 64.3
HellaSwag 0 秒 71.4 81.2
PIP 品質確保 0 秒 77.3 81.2
SocialIQA 0 秒 49.7 51.8
BoolQ 0 秒 69.4 83.2
WinoGrande 部分分數 65.4 72.3
CommonsenseQA 7 吋 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 張 53.2 63.4
自然問題 5 張 12.5 3,300
HumanEval Pass@1 3,200 32.3
MBPP 3 片 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 張 1,180 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
平均 44.9 56.4

倫理與安全

倫理與安全評估做法及成果

評估方法

我們的評估方法包括結構化評估,以及針對相關內容政策的內部紅隊測試。紅隊是由多個不同團隊執行,每個團隊都有不同的目標和人工評估指標。我們根據多個與倫理和安全相關的類別來評估這些模型,包括:

  • 文字轉語音內容安全:針對與安全政策相關的提示進行人為評估,包括兒少性虐待和剝削、騷擾、暴力和血腥內容,以及仇恨言論。
  • 文字轉文字呈現損害:依據相關學術資料集 (例如 WinoBiasBBQ 資料集) 進行基準測試。
  • 記憶:自動評估訓練資料記憶,包括個人識別資訊外洩的風險。
  • 大規模傷害:測試「危險功能」,例如化學、生物、放射和核子 (CBRN) 風險。

評估結果

倫理與安全評估的結果不在可接受的範圍內,也就是符合內部政策規定,針對兒童安全、內容安全、代表性傷害、記憶性、大規模危害等除了完善的內部評估機制之外,此處也顯示了烤肉、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等已知安全基準的結果。

Gemma 1.0 版本

Benchmark 指標 Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity 平均 6.86 歐元
粗體 45:57 歐元
群眾與粉絲 top-1 45.82 51:33
BBQ Ambig 單張,頂端-1 62.58 萬 92.54 萬
BBQ Disambig top-1 54.62 歐元
威諾性別 top-1 51:25 54.17
TruthfulQA 44.84 3,181 萬
溫諾比亞 1_2 56.12 歐元
溫諾比亞 2_2 110 萬 21 萬
Toxigen 29.77 歐元

Gemma 1.1 版本

Benchmark 指標 Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity 平均 7.03 8.04
粗體 47.76
群眾與粉絲 top-1 歐元 歐元
BBQ Ambig 單張,頂端-1 歐元 86.06
BBQ Disambig top-1 歐元 85.08
威諾性別 top-1 50.14 57.64
TruthfulQA 44.24 萬 45.34 萬
溫諾比亞 1_2 歐元 59.22
溫諾比亞 2_2 89.46 89.2
Toxigen 29.64 2HM8+9C

使用和限制

這些模型有特定限制,使用者應瞭解。

預期用途

開放大型語言模型 (LLM) 有許多適用產業和領域的大量應用程式。以下列出可能的用途並不全面。這份清單的目的是針對模型訓練和開發過程中可能使用的用途提供背景資訊。

  • 內容製作與通訊
    • 產生文字:這些模型可用於產生創意文字格式,如詩詞、腳本、程式碼、行銷文案和電子郵件草稿。
    • 聊天機器人和對話式 AI:為客戶服務、虛擬助理或互動式應用程式提供對話式介面。
    • 文字摘要:產生文字語料庫、研究論文或報告的精簡摘要。
  • 研究與教育
    • Natural Language Processing (NLP) 研究:這些模型可以做為基礎,協助研究人員進行自然語言處理技術實驗、開發演算法,並為領域做出貢獻。
    • 語言學習工具:支援互動式語言學習體驗 協助修正文法或提供寫作練習
    • 知識探索:協助研究人員產生摘要或回答特定主題相關問題,進而探索大量文字。

限制

  • 訓練資料
    • 訓練資料的品質和多元性會大幅影響模型的能力。訓練資料中的偏誤或缺口可能會導致模型回應受限。
    • 訓練資料集的範圍會決定模型可有效處理的主體領域。
  • 背景資訊與任務的複雜度
    • 在需要明確提示和指示的情況下建立框架後,LLM 會較適合使用 LLM。開放式或高度複雜的工作可能會充滿挑戰。
    • 模型的效能取決於提供的背景資訊量 (較長的背景資訊通常能產生更好的輸出量,達到一定程度)。
  • 語言不明確與細微差異
    • 自然語言本身是複雜的LLM 可能難以掌握細微的細微差異、諷刺或擬真用語。
  • 事實查核
    • LLM 會根據從訓練資料集學習到的資訊產生回應,但 LLM 並非知識庫。但可能會產生錯誤或過時的事實陳述。
  • Common Sense
    • LLM 仰賴語言的統計模式。這類模型可能在特定情況下無法應用常見合理推理。

倫理考量和風險

大型語言模型 (LLM) 的開發引發了幾項倫理問題。在建立開放式模型時,我們仔細思考以下幾點:

  • 偏見和公平
    • 以大規模實際文字資料訓練的 LLM,可反映內嵌在訓練素材中的社會文化偏見。這些模型經過仔細審查、預先處理輸入資料的預先處理,以及這張資訊卡中回報的海後評估。
  • 不實資訊和濫用
    • LLM 可能遭人濫用,產生不實、具誤導性或有害的文字。
    • 我們會提供指南,確保以負責任的方式使用模型,請參閱負責任的生成式 AI 工具包
  • 透明度和可靠度:
    • 這張模型資訊卡概略說明模型的架構、功能、限制和評估程序。
    • 以負責任的方式開發的開放模型讓 AI 生態系統中的開發人員和研究人員都能使用 LLM 技術,藉此分享創新成果。

識別和緩解的風險:

  • 避免偏見:建議持續進行監控 (使用評估指標和人工審查),並在模型訓練、微調及其他用途期間探索去偏誤技術。
  • 產生有害內容:內容安全機制的機制與規範至關重要。我們建議開發人員依據特定產品政策和應用程式用途,謹慎執行適當的內容安全保護措施。
  • 為惡意目的濫用:技術限制、開發人員和使用者教育可協助防範 LLM 的惡意應用程式。此外,我們也提供使用者檢舉濫用行為的教育資源和報告機制。Gemma 模型的使用限制政策列載於《Gemma 使用限制政策》。
  • 侵犯隱私權:模型訓練了移除 PII (個人識別資訊) 的資料,然後進行訓練。我們鼓勵開發人員以隱私權保護技術,遵循隱私權法規。

優點

此系列模型在發行時,提供高效能開放式大型語言模型實作,相較於類似規模的模型,負責任的 AI 技術開發作業是從頭設計出來的。

使用本文所述的基準評估指標,這些模型已證明,能為其他大小相同的開放模型替代方案提供卓越效能。