模型頁面:Gemma
資源和技術說明文件:
使用條款:條款
作者:Google
型號資訊
輸入和輸出內容的摘要說明和簡要定義。
說明
Gemma 是 Google 開發的 最先進的開放式模型 。 是純文字轉文字 僅限解碼器的大型語言模型 (支援英文) 。 Gemma 模型非常適合各種文字生成工作,包括 例如回答問題、總結和推理問題相對較小 可讓您在資源有限的環境 (例如 筆記型電腦、桌上型電腦或自有雲端基礎架構, 最先進的 AI 模型,協助所有人推動創新。
輸入和輸出
- 輸入內容:文字字串,例如問題、提示或文件 總結
- 輸出:回應輸入內容產生的英文文字,例如 可當做問題的答案或文件摘要
引用內容
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型資料
用於模型訓練的資料以及資料處理方式。
訓練資料集
用來訓練這些模型的文字資料資料集 所提供的資訊270 億個模型利用 13 兆美元訓練,90 億個模型 我們用 8 兆個符記訓練而成,20 億個模型接受了 2 兆個符記訓練。 主要元件如下:
- 網路文件:多樣化的網路文字集合,確保模型暴露在風險中。 或是能生成不同的語言風格、主題和詞彙主要 英語內容
- 程式碼:將模型公開給程式碼,幫助模型瞭解 提供更優異的 瞭解程式碼相關問題
- 數學:使用數學文字進行訓練,協助模型學習邏輯 以及處理數學查詢
結合這些不同的資料來源是訓練強大的 能處理各種不同任務和文字的語言 格式。
資料預先處理
以下為訓練作業適用的重要資料清理和篩選方法 資料:
- 兒少性虐待內容過濾:嚴密的兒少性虐待內容 (兒少性虐待內容) 篩選功能 並套用至資料準備程序的多個階段,確保 排除有害和非法內容
- 篩選機密資料:為了維護 Gemma 預先訓練模型的安全, 他們利用可靠、自動化的技術 訓練集中的資訊及其他機密資料
- 其他方法:根據 我們的政策。
導入資訊
關於模型內部的詳細資訊。
硬體
Gemma 是以最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5p)。
訓練大型語言模型需要龐大的運算能力。TPU 專為機器學習常見的矩陣作業而設計 有幾個優點:
- 效能:TPU 專為處理大量運算而設計 訓練 LLM (大型語言模型)比起其他公司,Google 能大幅加快訓練速度 CPU。
- 記憶體:TPU 通常搭載大量高頻寬記憶體, 這有助您在訓練期間處理大型模型和批量這可以 可以提升模型品質
- 擴充性:TPU Pod (大型 TPU 叢集) 為 處理日益複雜的大型基礎模型您可以 在多個 TPU 裝置上進行訓練,以更快、更有效率的方式處理資料。
- 成本效益:在許多情況下,TPU 具有更符合成本效益 比較訓練大型模型與以 CPU 為基礎的基礎架構 尤其是在想節省時間與資源時 訓練而成
- 這些優勢與 Google 對永續發展的承諾。
軟體
訓練課程是透過 JAX 和 ML Pathways 完成。
JAX 可讓研究人員充分運用最新一代的硬體 (包括 TPU),以更快、更有效率的方式訓練大型模型。
機器學習 Pathways 是 Google 全力打造人為智慧系統的最新成果 這種模型也能處理多種工作這適合用來處理 基礎模型,包括 進行分類
JAX 和 ML Pathways 兩者合稱為 Gemini 系列模型的論文;"單一 控制器Jax 和 Pathways 的程式設計模型可讓您使用 以管理整個訓練執行作業,大幅簡化 開發工作流程。」
評估
模型評估指標和結果。
基準結果
我們使用大量不同的資料集評估這些模型, 來分析文字生成的各個層面:
基準 | 指標 | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 張鏡頭,Top-1 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 張 | 73.0 版 | 81.9 人 | 86.4 |
PIQA | 0 桿 | 77.8 | 81.7 | 83.2 |
SocialIQA | 0 桿 | 51.9 人 | 53.4 | 53.7 |
BoolQ | 0 桿 | 72.5 | 84.2 | 84.8 |
WinoGrande | 部分分數 | 70.9 人 | 80.6 | 83.7 |
ARC-e | 0 桿 | 80.1 | 88.0 | 88.6 |
ARC-c | 25 張 | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 張 | 59.4 | 76.6 | 83.7 |
自然問題 | 5 張 | 16.7 | 29.2 | 34.5 |
HumanEval | Pass@1 | 17.7 | 40.2 版 | 51.8 |
MBPP | 3 張 | 29.6 | 52.4 | 62.6 |
GSM8K | 5 鏡頭、maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 桿 | 15.0 | 36.6 | 42.3 |
AGIEval | 3 到 5 個畫面 | 30.6 | 52.8 | 55.1 |
DROP | 3 鏡頭、F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3 球,科 T | 41.9 人 | 68.2 | 74.9 |
倫理與安全
倫理和安全評估方法和結果。
評估方法
我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:
- 文字轉文字內容安全:以人工方式評估有關安全性的提示 包括兒少性虐待及剝削、騷擾、暴力等政策 以及仇恨言論
- 文字轉文字表現騷擾行為:針對相關學科進行基準測試 WinoBias 和 BBQ Dataset 等資料集。
- 記憶:自動評估訓練資料,包括 個人識別資訊洩露的風險。
- 大規模危害:測試「危險能力」例如化學 有生物、放射和核子 (CBRN) 的風險。
評估結果
倫理和安全評估的結果在可接受的範圍內 遵守兒童等類別的內部政策 安全性, 內容安全, 象徵性傷害, 記憶性, 大規模傷害 除了強大的內部評估外,已知的安全結果 烤肉、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA 等基準 都會顯示在這裡
Gemma 2.0
基準 | 指標 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | 平均 | 8.16 | 8:25 | 8.84 |
烏鴉配對 | top-1 | 37.67 | 37.47 | 36.67 |
BBQ 阿米比文 | 1 張攝影效果,最佳-1 | 83:20 | 88.58 | 85.99 人 |
BBQ 料理 | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 美元 | 79.17 | 77:22 |
TruthfulQA | 43.72 | 50:27 | 51.60 美元 | |
溫比亞 1_2 | 59:28 | 78.09 分 | 81.94 | |
溫比亞 2_2 | 88.57 | 95:32 | 97:22 | |
Toxigen | 48:32 | 39.30 | 38.42 |
危險能力評估
評估方法
我們評估了多項危險功能:
- 令人反感的網路安全:評估模型在 網路安全背景的環境被廣泛應用 Capture-the-Flag (CTF) 平台 (例如 InterCode-CTF 和 Hack the Box), 以及內部開發的 CTF 挑戰這些評估結果 運用安全漏洞 模擬環境
- 自擴展:我們評估了模型的容量 透過設計涉及資源擷取、程式碼等工作 遠端系統的執行和互動。評估結果 模型是否能獨立複製及傳播
- 說服力:為了評估模型的說服力和說服能力, 也進行了人體感測研究這些研究涉及的 評估模型建立和諧關係的能力 以及指派人類參與者採取特定行動。
評估結果
如需所有評估的詳細資訊,請參閱 評估邊境模型的危險功能 簡單來說 Gemma 2 技術報告。
評估 | 功能 | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | 令人反感的網路安全 | 全年無休的挑戰 |
內部 CTF | 令人反感的網路安全 | 1/13 挑戰 |
裝箱 | 令人反感的網路安全 | 0/13 挑戰 |
自我擴散預警 | 自擴 | 1/10 挑戰 |
傷害令人反感的內容 | 說服 | 同意的參與者百分比: 81% 有趣 有 75% 的人會再說一次 80% 的人聯手建立 |
點擊連結 | 說服 | 34% 的參與者 |
尋找資訊 | 說服 | 9% 的參與者 |
執行代碼 | 說服 | 11% 的參與者 |
金錢講座 | 說服 | £3.72 英鎊平均值 |
謊言網 | 說服 | 18% 表示朝正確的信念前進,1% 的意思為 答錯 |
使用與限制
這些模型有某些限制,而使用者應留意。
預定用途
開放式大型語言模型 (LLM) 在各種平台中 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型
- 內容創作及溝通
- 文字產生:這些模型可用於生成廣告素材文字格式 例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿
- 聊天機器人和對話式 AI:為客戶提供強大的對話式介面 或互動式應用程式。
- 文字摘要:生成文字語料庫、研究資料的簡短摘要 報告或報告
- 研究和教育
- 自然語言處理 (NLP) 研究:這類模型可做為 為研究人員提供自然語言處理技術實驗、 並促進創作領域的進展。
- 語言學習工具:支援互動式語言學習體驗 以文法校正或提供寫作練習
- 知識探索:協助研究人員探索大量文字 產生摘要或回答特定主題的問題
限制
- 訓練資料
- 訓練資料的品質與多樣性會大幅影響 模型的功能訓練資料中的偏誤或缺口可能導致 可產生一些限制
- 訓練資料集的範圍會決定模型可運用的主題 有效處理
- 背景資訊和工作複雜度
- LLM 較適合用來為工作建立框架和明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
- 模型的成效取決於提供的背景資訊量 (背景資訊越長通常可產生較佳的輸出結果,直到某種程度的為止)。
- 語言模糊度和細微差異
- 自然語言本質上就很複雜。LLM 難以掌握 包含細微、諷刺或虛構語言等用語
- 事實準確性
- 大型語言模型會根據 但不是知識庫使用者可能會 不正確或過時的事實陳述
- 常識
- LLM 仰賴的語言統計模式。他們可能缺少能力 在某些情況下套用常識推理。
倫理考量和風險
大型語言模型 (LLM) 的開發會引發許多倫理疑慮。 建立開放式模型時,我們會仔細考量下列事項:
- 偏誤和公平性
- 以大量真實文字資料訓練的 LLM 能反映社會文化 訓練資料中內嵌的偏誤這類模型在研究過程中 審查、預先處理資料,以及後續評估 這張資訊卡顯示的資料
- 錯誤資訊和濫用
- LLM 可能遭到濫用,產生不實、具誤導性或有害的文字。
- 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包。
- 透明度和可靠度:
- 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
- 秉持負責態度開發的開放式模型 讓開發人員和研究人員輕鬆使用 LLM 技術 整個 AI 生態系統中的成員
識別的風險和緩解措施:
- 延續偏誤:建議持續監控偏見 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
- 產生有害內容:內容安全機制和規範 至關重要開發人員鼓勵開發人員謹慎執行 符合特定產品政策的內容安全保護措施 以及應用程式的用途
- 誤用為惡意用途:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 或更新提示如要瞭解 Gemma 模型禁止的用途,請參閱 Gemma 使用限制政策。
- 隱私權違規:訓練模型使用的資料篩選出 PII (個人識別資訊)。我們建議開發人員遵守 整合隱私權法規和隱私權保護技術。
優點
這一系列的模型在發布時可提供高效能 專為負責任地設計的大型語言模型實作 與規模相近的模型相比,負責任的 AI 技術開發成效。
我們利用本文件所述的基準評估指標,使用這些模型 經證實為其他同等規模的開放式模型可提供優異效能 替代解決方案