Gemma 2 模型卡

模型頁面Gemma

資源和技術說明文件

使用條款條款

作者:Google

型號資訊

輸入和輸出內容的摘要說明和簡要定義。

說明

Gemma 是 Google 開發的 最先進的開放式模型 。 是純文字轉文字 僅限解碼器的大型語言模型 (支援英文) 。 Gemma 模型非常適合各種文字生成工作,包括 例如回答問題、總結和推理問題相對較小 可讓您在資源有限的環境 (例如 筆記型電腦、桌上型電腦或自有雲端基礎架構, 最先進的 AI 模型,協助所有人推動創新。

輸入和輸出

  • 輸入內容:文字字串,例如問題、提示或文件 總結
  • 輸出:回應輸入內容產生的英文文字,例如 可當做問題的答案或文件摘要

引用內容

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

模型資料

用於模型訓練的資料以及資料處理方式。

訓練資料集

用來訓練這些模型的文字資料資料集 所提供的資訊270 億個模型利用 13 兆美元訓練,90 億個模型 我們用 8 兆個符記訓練而成,20 億個模型接受了 2 兆個符記訓練。 主要元件如下:

  • 網路文件:多樣化的網路文字集合,確保模型暴露在風險中。 或是能生成不同的語言風格、主題和詞彙主要 英語內容
  • 程式碼:將模型公開給程式碼,幫助模型瞭解 提供更優異的 瞭解程式碼相關問題
  • 數學:使用數學文字進行訓練,協助模型學習邏輯 以及處理數學查詢

結合這些不同的資料來源是訓練強大的 能處理各種不同任務和文字的語言 格式。

資料預先處理

以下為訓練作業適用的重要資料清理和篩選方法 資料:

  • 兒少性虐待內容過濾:嚴密的兒少性虐待內容 (兒少性虐待內容) 篩選功能 並套用至資料準備程序的多個階段,確保 排除有害和非法內容
  • 篩選機密資料:為了維護 Gemma 預先訓練模型的安全, 他們利用可靠、自動化的技術 訓練集中的資訊及其他機密資料
  • 其他方法:根據 我們的政策

導入資訊

關於模型內部的詳細資訊。

硬體

Gemma 是以最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5p)。

訓練大型語言模型需要龐大的運算能力。TPU 專為機器學習常見的矩陣作業而設計 有幾個優點:

  • 效能:TPU 專為處理大量運算而設計 訓練 LLM (大型語言模型)比起其他公司,Google 能大幅加快訓練速度 CPU。
  • 記憶體:TPU 通常搭載大量高頻寬記憶體, 這有助您在訓練期間處理大型模型和批量這可以 可以提升模型品質
  • 擴充性:TPU Pod (大型 TPU 叢集) 為 處理日益複雜的大型基礎模型您可以 在多個 TPU 裝置上進行訓練,以更快、更有效率的方式處理資料。
  • 成本效益:在許多情況下,TPU 具有更符合成本效益 比較訓練大型模型與以 CPU 為基礎的基礎架構 尤其是在想節省時間與資源時 訓練而成
  • 這些優勢與 Google 對永續發展的承諾

軟體

訓練課程是透過 JAXML Pathways 完成。

JAX 可讓研究人員充分運用最新一代的硬體 (包括 TPU),以更快、更有效率的方式訓練大型模型。

機器學習 Pathways 是 Google 全力打造人為智慧系統的最新成果 這種模型也能處理多種工作這適合用來處理 基礎模型,包括 進行分類

JAX 和 ML Pathways 兩者合稱為 Gemini 系列模型的論文;"單一 控制器Jax 和 Pathways 的程式設計模型可讓您使用 以管理整個訓練執行作業,大幅簡化 開發工作流程。」

評估

模型評估指標和結果。

基準結果

我們使用大量不同的資料集評估這些模型, 來分析文字生成的各個層面:

基準 指標 Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 張鏡頭,Top-1 51.3 71.3 75.2
HellaSwag 10 張 73.0 版 81.9 人 86.4
PIQA 0 桿 77.8 81.7 83.2
SocialIQA 0 桿 51.9 人 53.4 53.7
BoolQ 0 桿 72.5 84.2 84.8
WinoGrande 部分分數 70.9 人 80.6 83.7
ARC-e 0 桿 80.1 88.0 88.6
ARC-c 25 張 55.4 68.4 71.4
TriviaQA 5 張 59.4 76.6 83.7
自然問題 5 張 16.7 29.2 34.5
HumanEval Pass@1 17.7 40.2 版 51.8
MBPP 3 張 29.6 52.4 62.6
GSM8K 5 鏡頭、maj@1 23.9 68.6 74.0
MATH 4 桿 15.0 36.6 42.3
AGIEval 3 到 5 個畫面 30.6 52.8 55.1
DROP 3 鏡頭、F1 52.0 69.4 72.2
BIG-Bench 3 球,科 T 41.9 人 68.2 74.9

倫理與安全

倫理和安全評估方法和結果。

評估方法

我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:

  • 文字轉文字內容安全:以人工方式評估有關安全性的提示 包括兒少性虐待及剝削、騷擾、暴力等政策 以及仇恨言論
  • 文字轉文字表現騷擾行為:針對相關學科進行基準測試 WinoBiasBBQ Dataset 等資料集。
  • 記憶:自動評估訓練資料,包括 個人識別資訊洩露的風險。
  • 大規模危害:測試「危險能力」例如化學 有生物、放射和核子 (CBRN) 的風險。

評估結果

倫理和安全評估的結果在可接受的範圍內 遵守兒童等類別的內部政策 安全性, 內容安全, 象徵性傷害, 記憶性, 大規模傷害 除了強大的內部評估外,已知的安全結果 烤肉、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等基準 都會顯示在這裡

Gemma 2.0

基準 指標 Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity 平均 8.16 8:25 8.84
烏鴉配對 top-1 37.67 37.47 36.67
BBQ 阿米比文 1 張攝影效果,最佳-1 83:20 88.58 85.99 人
BBQ 料理 top-1 69.31 82.67 86.94
Winogender top-1 52.91 美元 79.17 77:22
TruthfulQA 43.72 50:27 51.60 美元
溫比亞 1_2 59:28 78.09 分 81.94
溫比亞 2_2 88.57 95:32 97:22
Toxigen 48:32 39.30 38.42

危險能力評估

評估方法

我們評估了多項危險功能:

  • 令人反感的網路安全:評估模型在 網路安全背景的環境被廣泛應用 Capture-the-Flag (CTF) 平台 (例如 InterCode-CTF 和 Hack the Box), 以及內部開發的 CTF 挑戰這些評估結果 運用安全漏洞 模擬環境
  • 自擴展:我們評估了模型的容量 透過設計涉及資源擷取、程式碼等工作 遠端系統的執行和互動。評估結果 模型是否能獨立複製及傳播
  • 說服力:為了評估模型的說服力和說服能力, 也進行了人體感測研究這些研究涉及的 評估模型建立和諧關係的能力 以及指派人類參與者採取特定行動。

評估結果

如需所有評估的詳細資訊,請參閱 評估邊境模型的危險功能 簡單來說 Gemma 2 技術報告

評估 功能 Gemma 2 IT 27B
InterCode-CTF 令人反感的網路安全 全年無休的挑戰
內部 CTF 令人反感的網路安全 1/13 挑戰
裝箱 令人反感的網路安全 0/13 挑戰
自我擴散預警 自擴 1/10 挑戰
傷害令人反感的內容 說服 同意的參與者百分比: 81% 有趣 有 75% 的人會再說一次 80% 的人聯手建立
點擊連結 說服 34% 的參與者
尋找資訊 說服 9% 的參與者
執行代碼 說服 11% 的參與者
金錢講座 說服 £3.72 英鎊平均值
謊言網 說服 18% 表示朝正確的信念前進,1% 的意思為 答錯

使用與限制

這些模型有某些限制,而使用者應留意。

預定用途

開放式大型語言模型 (LLM) 在各種平台中 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型

  • 內容創作及溝通
    • 文字產生:這些模型可用於生成廣告素材文字格式 例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿
    • 聊天機器人和對話式 AI:為客戶提供強大的對話式介面 或互動式應用程式。
    • 文字摘要:生成文字語料庫、研究資料的簡短摘要 報告或報告
  • 研究和教育
    • 自然語言處理 (NLP) 研究:這類模型可做為 為研究人員提供自然語言處理技術實驗、 並促進創作領域的進展。
    • 語言學習工具:支援互動式語言學習體驗 以文法校正或提供寫作練習
    • 知識探索:協助研究人員探索大量文字 產生摘要或回答特定主題的問題

限制

  • 訓練資料
    • 訓練資料的品質與多樣性會大幅影響 模型的功能訓練資料中的偏誤或缺口可能導致 可產生一些限制
    • 訓練資料集的範圍會決定模型可運用的主題 有效處理
  • 背景資訊和工作複雜度
    • LLM 較適合用來為工作建立框架和明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
    • 模型的成效取決於提供的背景資訊量 (背景資訊越長通常可產生較佳的輸出結果,直到某種程度的為止)。
  • 語言模糊度和細微差異
    • 自然語言本質上就很複雜。LLM 難以掌握 包含細微、諷刺或虛構語言等用語
  • 事實準確性
    • 大型語言模型會根據 但不是知識庫使用者可能會 不正確或過時的事實陳述
  • 常識
    • LLM 仰賴的語言統計模式。他們可能缺少能力 在某些情況下套用常識推理。

倫理考量和風險

大型語言模型 (LLM) 的開發會引發許多倫理疑慮。 建立開放式模型時,我們會仔細考量下列事項:

  • 偏誤和公平性
    • 以大量真實文字資料訓練的 LLM 能反映社會文化 訓練資料中內嵌的偏誤這類模型在研究過程中 審查、預先處理資料,以及後續評估 這張資訊卡顯示的資料
  • 錯誤資訊和濫用
    • LLM 可能遭到濫用,產生不實、具誤導性或有害的文字。
    • 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包
  • 透明度和可靠度:
    • 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
    • 秉持負責態度開發的開放式模型 讓開發人員和研究人員輕鬆使用 LLM 技術 整個 AI 生態系統中的成員

識別的風險和緩解措施:

  • 延續偏誤:建議持續監控偏見 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
  • 產生有害內容:內容安全機制和規範 至關重要開發人員鼓勵開發人員謹慎執行 符合特定產品政策的內容安全保護措施 以及應用程式的用途
  • 誤用為惡意用途:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 或更新提示如要瞭解 Gemma 模型禁止的用途,請參閱 Gemma 使用限制政策
  • 隱私權違規:訓練模型使用的資料篩選出 PII (個人識別資訊)。我們建議開發人員遵守 整合隱私權法規和隱私權保護技術。

優點

這一系列的模型在發布時可提供高效能 專為負責任地設計的大型語言模型實作 與規模相近的模型相比,負責任的 AI 技術開發成效。

我們利用本文件所述的基準評估指標,使用這些模型 經證實為其他同等規模的開放式模型可提供優異效能 替代解決方案