型錄頁面:Gemma
資源和技術文件:
使用條款:條款
作者:Google DeepMind
型號資訊
輸入和輸出的摘要說明和簡短定義。
說明
Gemma 是 Google 推出的一系列先進輕量級開放式模型,採用與建立 Gemini 模型時相同的研究成果和技術。Gemma 3 模型屬於多模態模型,可處理文字和圖像輸入內容,並產生文字輸出內容,且預先訓練的變化版本和指令調整的變化版本都含有開放權重。Gemma 3 提供 128K 的大型脈絡窗,支援超過 140 種語言,且提供比先前版本更多尺寸。Gemma 3 模型非常適合各種文字生成和圖像理解工作,包括回答問題、摘要和推理。由於模型大小相對較小,因此可在資源有限的環境中部署,例如筆電、桌機或您自己的雲端基礎架構,讓所有人都能使用先進的 AI 模型,並協助促進創新。
輸入和輸出
輸入內容:
- 文字字串,例如問題、提示或要摘要的文件
- 圖片已調整為 896 x 896 解析度,並經過編碼,每個圖片有 256 個符記
- 總輸入內容:4B、12B 和 27B 大小的 128K 符記,以及 1B 大小的 32K 符記
輸出內容:
- 針對輸入內容產生的文字,例如問題的解答、圖片內容分析或文件摘要
- 總輸出脈絡大小上限為 4B、12B 和 27B 大小的 128K 個符記,以及每項要求的 1B 大小 32K 個符記 (扣除要求輸入符記)
引用內容
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
模型資料
用於模型訓練的資料,以及資料的處理方式。
訓練資料集
這些模型的訓練資料集包含多種來源的文字資料。27B 模型使用 14 兆個符記進行訓練,12B 模型使用 12 兆個符記進行訓練,4B 模型使用 4 兆個符記進行訓練,1B 模型使用 2 兆個符記進行訓練。訓練資料的知識截止日期為 2024 年 8 月。以下是關鍵元件:
- 網頁文件:透過多樣化的網頁文字集合,確保模型能接觸到多種語言風格、主題和詞彙。訓練資料集包含超過 140 種語言的內容。
- 程式碼:將模型暴露給程式碼,有助於模型學習程式設計語言的語法和模式,進而提升生成程式碼和瞭解程式碼相關問題的能力。
- 數學:訓練數學文字有助於模型學習邏輯推理、符號表示法,並解決數學查詢。
- 圖片:多種圖片可讓模型執行圖像分析和視覺資料擷取作業。
這些多樣化的資料來源結合起來,對於訓練可處理各種不同工作和資料格式的強大多模態模型至關重要。
資料預先處理
以下是套用於訓練資料的關鍵資料清理和篩選方法:
- 兒少性虐待內容篩選:在資料準備程序的多個階段,我們都會嚴格篩選兒少性虐待內容,確保排除有害和非法內容。
- 機密資料篩選:為了讓 Gemma 預先訓練模型安全可靠,我們使用自動化技術,從訓練集篩除特定個人資訊和其他機密資料。
- 其他方法:根據政策篩除違反內容品質和安全性的內容。
實作資訊
模型內部詳細資料。
硬體
Gemma 是使用 Tensor Processing Unit (TPU) 硬體 (TPUv4p、TPUv5p 和 TPUv5e) 進行訓練。訓練視覺語言模型 (VLM) 需要大量運算能力。TPU 專為機器學習中常見的矩陣運算而設計,在這個領域提供多項優勢:
- 效能:TPU 是專為處理訓練 VLM 時所需的大量運算而設計。相較於 CPU,GPU 可大幅加快訓練速度。
- 記憶體:TPU 通常會提供大量高頻寬記憶體,可在訓練期間處理大型模型和批次大小。這有助於提升模型品質。
- 擴充性:TPU Pod (大型 TPU 叢集) 提供可擴充的解決方案,可處理大型基礎模型日益複雜的情況。您可以將訓練工作分散至多個 TPU 裝置,以便更快速且有效率地處理。
- 成本效益:在許多情況下,TPU 可提供更具成本效益的解決方案,用於訓練大型模型,相較於以 CPU 為基礎的基礎架構,TPU 更能節省時間和資源,
- 這些優勢與 Google 的永續經營承諾一致。
軟體
訓練作業是使用 JAX 和 ML Pathways 完成。
JAX 可讓研究人員充分利用新一代硬體 (包括 TPU),以更快速、更有效率的方式訓練大型模型。機器學習途徑是 Google 最新的努力成果,可建構出可在多項任務中歸納的人工智慧系統。這類模型特別適合用於基礎模型,包括大型語言模型。
如Gemini 系列模型論文所述,JAX 和 ML Pathways 可搭配使用;「JAX 和 Pathways 的『單一控制器』程式設計模式可讓單一 Python 程序協調整個訓練執行作業,大幅簡化開發工作流程。」
評估
模型評估指標和結果。
基準測試結果
這些模型是根據大量不同的資料集和指標進行評估,涵蓋文字產生的各個層面。標示為 IT 的評估結果適用於指令調整模型。標有「PT」PT的評估結果是針對預先訓練模型。
推論和事實
基準 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA Diamond | 零樣本 | 19.2 | 30.8 | 40.9 | 42.4 |
SimpleQA | 零樣本 | 2.2 | 4.0 | 6.3 | 10.0 |
FACTS 建立基準 | - | 36.4 | 70.1 | 75.8 | 74.9 |
BIG-Bench Hard | 零樣本 | 39.1 | 72.2 | 85.7 | 87.6 |
BIG-Bench Extra Hard | 零樣本 | 7.2 | 11.0 | 16.3 | 19.3 |
IFEval | 零樣本 | 80.2 | 90.2 | 88.9 | 90.4 |
基準 | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10 張相片 | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 零樣本 | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 零樣本 | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 零樣本 | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5 張相片 | 39.8 | 65.8 | 78.2 | 85.5 |
自然問題 | 5 張相片 | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25 張 | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 零樣本 | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5 張相片 | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | 少量樣本 | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1 張 | 42.4 | 60.1 | 72.2 | 77.2 |
STEM 和程式設計
基準 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | 零樣本 | 14.7 | 43.6 | 60.6 | 67.5 |
LiveCodeBench | 零樣本 | 1.9 | 12.6 | 24.6 | 29.7 |
Bird-SQL (開發人員) | - | 6.4 | 36.3 | 47.9 | 54.4 |
數學 | 零樣本 | 48.0 | 75.6 | 83.8 | 89.0 |
HiddenMath | 零樣本 | 15.8 | 43.0 | 54.5 | 60.3 |
MBPP | 3 張相片 | 35.2 | 63.2 | 73.0 | 74.4 |
HumanEval | 零樣本 | 41.5 | 71.3 | 85.4 | 87.8 |
Natural2Code | 零樣本 | 56.0 | 70.3 | 80.7 | 84.5 |
GSM8K | 零樣本 | 62.8 | 89.2 | 94.4 | 95.9 |
基準 | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5 張相片 | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5 張相片 | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4 格 | 24.2 | 43.3 | 50.0 |
GSM8K | 8 張 | 38.4 | 71.0 | 82.6 |
GPQA | 5 張相片 | 15.0 | 25.4 | 24.3 |
MBPP | 3 張相片 | 46.0 | 60.4 | 65.6 |
HumanEval | 零樣本 | 36.0 | 45.7 | 48.8 |
多語言
基準 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | 零樣本 | 34.2 | 54.5 | 69.5 | 75.1 |
ECLeKTic | 零樣本 | 1.4 | 4.6 | 10.3 | 16.7 |
WMT24++ | 零樣本 | 35.9 | 46.8 | 51.6 | 53.4 |
基準 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (全部) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
多模態
基準 | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | 48.8 | 59.6 | 64.9 |
DocVQA | 75.8 | 87.1 | 86.6 |
InfoVQA | 50.0 | 64.9 | 70.6 |
TextVQA | 57.8 | 67.7 | 65.1 |
AI2D | 74.8 | 84.2 | 84.5 |
ChartQA | 68.8 | 75.7 | 78.0 |
VQAv2 (val) | 62.4 | 71.6 | 71.0 |
MathVista (testmini) | 50.0 | 62.9 | 67.6 |
基準 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
道德與安全
倫理和安全性評估方法和結果。
評估方法
我們的評估方法包括結構化評估,以及針對相關內容政策進行內部紅隊測試。紅隊評估是由多個不同團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型會根據與倫理和安全相關的多個不同類別進行評估,包括:
- 兒童安全:評估文字轉文字和圖片轉文字提示,涵蓋兒童安全政策,包括兒童性虐待和剝削。
- 內容安全性:評估文字對文字和圖片對文字提示,涵蓋騷擾、暴力和血腥內容,以及仇恨言論等安全性政策。
- 不當表徵:評估文字轉文字和圖片轉文字提示,涵蓋偏見、刻板印象、有害聯想或不準確等安全政策。
除了開發層級評估外,我們也會進行「保證評估」,這是我們為負責治理決策做出的「獨立」內部評估。這些測試與模型開發團隊的測試分開進行,以便做出發布相關決策。我們會將高層次的發現回饋給模型團隊,但會保留提示集,以免過度擬合,並保留結果的決策資訊。我們會將保證評估結果回報給責任與安全委員會,做為發布審查的一部分。
評估結果
在所有安全性測試領域中,我們發現兒童安全、內容安全和表徵性傷害的類別,相較於先前的 Gemma 模型,有顯著改善。我們在進行所有測試時,並未使用安全篩選器,而是評估模型的功能和行為。無論是文字轉文字和圖片轉文字,以及所有模型大小,模型都只會產生少數政策違規,且在無根據推論方面,表現遠優於先前的 Gemma 模型。但評估內容僅包含英文提示,這也是評估的限制。
使用方式和限制
這些模型有特定限制,使用者應注意。
預定用途
開放式視覺語言模型 (VLM) 可廣泛應用於各個產業和領域。以下列出部分可能的用途,這份清單的目的,是提供關於可能用途的背景資訊,這些用途是模型建立者在模型訓練和開發過程中考慮的。
- 內容創作和溝通
- 文字產生:這些模型可用來產生創意文字格式,例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客戶服務、虛擬助理或互動式應用程式提供交談介面。
- 文字摘要:針對文字叢集、研究論文或報告產生精簡摘要。
- 圖像資料擷取:這些模型可用於擷取、解讀及摘要文字通訊的視覺資料。
- 研究和教育
- 自然語言處理 (NLP) 和 VLM 研究:這些模型可做為研究人員實驗 VLM 和 NLP 技術、開發演算法,並協助推動該領域進步的基礎。
- 語言學習工具:支援互動式語言學習體驗,協助修正文法或提供寫作練習。
- 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字。
限制
- 訓練資料
- 訓練資料的品質和多樣性會顯著影響模型的功能。訓練資料中的偏誤或缺漏,可能會導致模型回覆內容受到限制。
- 訓練資料集的範圍會決定模型可有效處理的主題領域。
- 情境和工作複雜度
- 模型最適合處理可透過明確的提示和操作說明定義的工作。開放式或高度複雜的工作可能會比較困難。
- 模型的效能可能會受到提供的背景資訊量影響 (較長的背景資訊通常會產生較佳的輸出內容,但效果會受到限制)。
- 語言模糊性和細微差異
- 自然語言本身就很複雜,模型可能難以掌握細微的差異、嘲諷或比喻。
- 符合事實
- 模型會根據從訓練資料集學到的資訊產生回覆,但並非知識庫。可能會產生不正確或過時的事實陳述。
- Common Sense
- 模型會依據語言中的統計模式運作。在某些情況下,他們可能無法運用常識推理。
倫理考量和風險
開發視覺語言模型 (VLM) 時,會引發一些道德問題。在建立開放式模式時,我們已仔細考量以下事項:
- 偏誤與公平性
- 以大量實際文字和圖像資料訓練的 VLM 可能會反映訓練素材內建的社會文化偏見。這些模型經過仔細審查,並在這個資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
- 不實資訊和濫用行為
- 使用者可能會濫用 VLM 產生不實、誤導性或有害的內容。
- 我們提供相關指南,說明如何負責任地使用模型,請參閱負責任的生成式 AI 工具包。
- 資訊公開及當責:
- 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
- 以負責任的方式開發開放式模型,讓 AI 生態系統中的開發人員和研究人員都能使用 VLM 技術,進而分享創新成果。
已識別的風險和緩解措施:
- 偏見持續存在:建議您在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、人為審查) 並探索去偏技術。
- 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員小心謹慎,並根據特定產品政策和應用程式用途,導入適當的內容安全防護措施。
- 遭到惡意濫用:技術限制和開發人員與使用者教育訓練,有助於降低 VLM 遭到惡意應用的風險。我們提供教育資源和回報機制,方便使用者檢舉濫用行為。Gemma 使用限制政策列出 Gemma 模型的禁止用途。
- 違反隱私權:模型是使用經過篩選的資料進行訓練,以移除特定個人資訊和其他機密資料。我們鼓勵開發人員透過隱私權保護技術遵守隱私權法規。
優點
在發布時,這一系列模型提供高效能的開放式視覺語言模型實作項目,與同類型模型相比,這些模型是從一開始就以負責任的 AI 開發為目標而設計。
根據本文件所述的基準評估指標,這些模型的效能優於其他相近大小的開放式模型替代方案。