Gemma 模型資訊卡

模型頁面Gemma

資源和技術說明文件

使用條款條款

作者:Google

型號資訊

輸入和輸出內容的摘要說明和簡要定義。

說明

Gemma 是 Google 開發的 最先進的開放式模型 。 是純文字轉文字 僅限解碼器的大型語言模型 (支援英文) 使用開放式權重、預先訓練的變化版本,以及經過指示調整的變化版本。Gemma 模型非常適合各種文字生成工作,包括 例如回答問題、總結和推理問題相對較小 可讓您在資源有限的環境 (例如 筆記型電腦、桌上型電腦或自有雲端基礎架構, 最先進的 AI 模型,協助所有人推動創新。

輸入和輸出

  • 輸入內容:文字字串,例如問題、提示或文件 總結
  • 輸出:回應輸入內容產生的英文文字,例如 可當做問題的答案或文件摘要

引用內容

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

模型資料

用於模型訓練的資料以及資料處理方式。

訓練資料集

用來訓練這些模型的文字資料資料集 共計 6 兆個符記主要元件如下:

  • 網路文件:多樣化的網路文字集合,確保模型暴露在風險中。 或是能生成不同的語言風格、主題和詞彙主要 英語內容
  • 程式碼:將模型公開給程式碼,幫助模型瞭解 提供更優異的 瞭解程式碼相關問題
  • 數學:使用數學文字進行訓練,協助模型學習邏輯 以及處理數學查詢

結合這些不同的資料來源是訓練強大的 能處理各種不同任務和文字的語言 格式。

資料預先處理

以下為訓練作業適用的重要資料清理和篩選方法 資料:

  • 兒少性虐待內容過濾:嚴密的兒少性虐待內容 (兒少性虐待內容) 篩選功能 並套用至資料準備程序的多個階段,確保 排除有害和非法內容
  • 篩選機密資料:為了維護 Gemma 預先訓練模型的安全, 他們利用可靠、自動化的技術 訓練集中的資訊及其他機密資料
  • 其他方法:根據 我們的政策

導入資訊

關於模型內部的詳細資訊。

硬體

Gemma 是以最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e)。

訓練大型語言模型需要龐大的運算能力。TPU 專為機器學習常見的矩陣作業而設計 有幾個優點:

  • 效能:TPU 專為處理大量運算而設計 訓練 LLM (大型語言模型)比起其他公司,Google 能大幅加快訓練速度 CPU。
  • 記憶體:TPU 通常搭載大量高頻寬記憶體, 這有助您在訓練期間處理大型模型和批量這可以 可以提升模型品質
  • 擴充性:TPU Pod (大型 TPU 叢集) 為 處理日益複雜的大型基礎模型您可以 在多個 TPU 裝置上進行訓練,以更快、更有效率的方式處理資料。
  • 成本效益:在許多情況下,TPU 具有更符合成本效益 比較訓練大型模型與以 CPU 為基礎的基礎架構 尤其是在想節省時間與資源時 訓練而成
  • 這些優勢與 Google 對永續發展的承諾

軟體

訓練課程是透過 JAXML Pathways 完成。

JAX 可讓研究人員充分運用最新一代的硬體 (包括 TPU),以更快、更有效率的方式訓練大型模型。

機器學習 Pathways 是 Google 全力打造人為智慧系統的最新成果 這種模型也能處理多種工作這適合用來處理 基礎模型,包括 進行分類

JAX 和 ML Pathways 兩者合稱為 Gemini 系列模型的論文;"單一 控制器Jax 和 Pathways 的程式設計模型可讓您使用 以管理整個訓練執行作業,大幅簡化 開發工作流程。」

評估

模型評估指標和結果。

基準結果

我們使用大量不同的資料集評估這些模型, 來分析文字生成的各個層面:

基準 指標 Gemma PT 2B Gemma PT 70
MMLU 5 張鏡頭,Top-1 42.3 64.3
HellaSwag 0 桿 71.4 81.2
PIQA 0 桿 77.3 81.2
SocialIQA 0 桿 49.7 51.8
BoolQ 0 桿 69.4 83.2
WinoGrande 部分分數 65.4 72.3
CommonsenseQA 7 張 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 張 53.2 63.4
自然問題 5 張 12.5 23.0
HumanEval Pass@1 22.0 32.3
MBPP 3 張 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 桿 11.8 24.3
AGIEval 24.2 41.7 版
BIG-Bench 35.2 55.1
平均 44.9 56.4

倫理與安全

倫理和安全評估方法和結果。

評估方法

我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:

  • 文字轉文字內容安全:以人工方式評估有關安全性的提示 包括兒少性虐待及剝削、騷擾、暴力等政策 以及仇恨言論
  • 文字轉文字表現騷擾行為:針對相關學科進行基準測試 WinoBiasBBQ Dataset 等資料集。
  • 記憶:自動評估訓練資料,包括 個人識別資訊洩露的風險。
  • 大規模危害:測試「危險能力」例如化學 有生物、放射和核子 (CBRN) 的風險。

評估結果

倫理和安全評估的結果在可接受的範圍內 遵守兒童等類別的內部政策 安全性, 內容安全, 象徵性傷害, 記憶性, 大規模傷害 除了強大的內部評估外,已知安全的結果 烤肉、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等基準 都會顯示在這裡

Gemma 1.0 版

基準 指標 Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity 平均 6.86 7.90 美元
BOLD 45.57 49.08
烏鴉配對 top-1 45.82 51.33
BBQ 阿米比文 1 張攝影效果,最佳-1 62.58 92.54
BBQ 料理 top-1 54.62 71.99 人
Winogender top-1 51:25 54:17
TruthfulQA 44.84 31.81
溫比亞 1_2 12 月 56 日 NT$180 元
溫比亞 2_2 91.10 2023 年 9 月 23 日
Toxigen 29.77 39.59

Gemma 1.1 版

基準 指標 Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity 平均 7.03 8.04
BOLD 47.76 分
烏鴉配對 top-1 45.89 人 49.67
BBQ 阿米比文 1 張攝影效果,最佳-1 58.97 美元 6 月 6 日
BBQ 料理 top-1 53.90 美元 85.08
Winogender top-1 50.14 57.64
TruthfulQA 44:24 45:34
溫比亞 1_2 55.93 美元 59:22
溫比亞 2_2 89.46 89.2
Toxigen 29.64 38.75

使用與限制

這些模型有某些限制,而使用者應留意。

預定用途

開放式大型語言模型 (LLM) 在各種平台中 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型

  • 內容創作及溝通
    • 文字產生:這些模型可用於生成廣告素材文字格式 例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿
    • 聊天機器人和對話式 AI:為客戶提供強大的對話式介面 或互動式應用程式。
    • 文字摘要:生成文字語料庫、研究資料的簡短摘要 報告或報告
  • 研究和教育
    • 自然語言處理 (NLP) 研究:這類模型可做為 為研究人員提供自然語言處理技術實驗、 並促進創作領域的進展。
    • 語言學習工具:支援互動式語言學習體驗 以文法校正或提供寫作練習
    • 知識探索:協助研究人員探索大量文字 產生摘要或回答特定主題的問題

限制

  • 訓練資料
    • 訓練資料的品質與多樣性會大幅影響 模型的功能訓練資料中的偏誤或缺口可能導致 可產生一些限制
    • 訓練資料集的範圍會決定模型可運用的主題 有效處理
  • 背景資訊和工作複雜度
    • LLM 較適合用來為工作建立框架和明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
    • 模型的成效取決於提供的背景資訊量 (背景資訊越長通常可產生較佳的輸出結果,直到某種程度的為止)。
  • 語言模糊度和細微差異
    • 自然語言本質上就很複雜。LLM 難以掌握 包含細微、諷刺或虛構語言等用語
  • 事實準確性
    • 大型語言模型會根據 但不是知識庫使用者可能會 不正確或過時的事實陳述
  • 常識
    • LLM 仰賴的語言統計模式。他們可能缺少能力 在某些情況下套用常識推理。

倫理考量和風險

大型語言模型 (LLM) 的開發會引發許多倫理疑慮。 建立開放式模型時,我們會仔細考量下列事項:

  • 偏誤和公平性
    • 以大量真實文字資料訓練的 LLM 能反映社會文化 訓練資料中內嵌的偏誤這類模型在研究過程中 審查、預先處理資料,以及後續評估 這張資訊卡顯示的資料
  • 錯誤資訊和濫用
    • LLM 可能遭到濫用,產生不實、具誤導性或有害的文字。
    • 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包
  • 透明度和可靠度:
    • 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
    • 秉持負責態度開發的開放式模型 讓開發人員和研究人員輕鬆使用 LLM 技術 整個 AI 生態系統中的成員

識別的風險和緩解措施:

  • 延續偏誤:建議持續監控偏見 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
  • 產生有害內容:內容安全機制和規範 至關重要開發人員鼓勵開發人員謹慎執行 符合特定產品政策的內容安全保護措施 以及應用程式的用途
  • 誤用為惡意用途:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 或更新提示如要瞭解 Gemma 模型禁止的用途,請參閱 Gemma 使用限制政策
  • 隱私權違規:訓練模型使用的資料篩選出 PII (個人識別資訊)。我們建議開發人員遵守 整合隱私權法規和隱私權保護技術。

優點

這一系列的模型在發布時可提供高效能 專為負責任地設計的大型語言模型實作 與規模相近的模型相比,負責任的 AI 技術開發成效。

我們利用本文件所述的基準評估指標,使用這些模型 經證實為其他同等規模的開放式模型可提供優異效能 替代解決方案