型錄頁面:Gemma
資源和技術文件:
使用條款:條款
作者:Google
型號資訊
輸入和輸出的摘要說明和簡短定義。
說明
Gemma 是 Google 推出的一系列先進輕量級開放式模型,採用與建立 Gemini 模型時相同的研究成果和技術打造而成。這些模型是文字轉文字、僅解碼器的大型語言模型,可用於英文,並提供預先訓練變化版本和指令微調變化版本的公開權重。Gemma 模型非常適合用於各種文字生成工作,包括回答問題、摘要和推理。由於其大小相對較小,因此可在資源有限的環境中部署,例如筆電、電腦或您自己的雲端基礎架構,讓所有人都能使用先進的 AI 模型,並協助促進創新。
輸入和輸出
- 輸入內容:文字字串,例如問題、提示或要摘要的文件。
- 輸出內容:根據輸入內容產生的英文文字,例如問題的答案或文件摘要。
引用內容
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型資料
用於模型訓練的資料,以及資料的處理方式。
訓練資料集
這些模型的訓練資料集包含多種來源的文字資料。27B 模型使用 13 兆個符號進行訓練,9B 模型使用 8 兆個符號進行訓練,而 2B 模型則使用 2 兆個符號進行訓練。以下是主要元件:
- 網頁文件:多樣化的網頁文字集合,可確保模型接觸到多種語言風格、主題和字彙。主要為英文內容。
- 程式碼:將模型公開給程式碼,有助於模型學習程式設計語言的語法和模式,進而提升模型產生程式碼或瞭解程式碼相關問題的能力。
- 數學:訓練數學文字有助於模型學習邏輯推理、符號表示法,並解決數學查詢。
這些多樣化的資料來源結合起來,對於訓練強大的語言模型至關重要,因為這種模型可處理各種不同的工作和文字格式。
資料預先處理
以下是套用於訓練資料的關鍵資料清理和篩選方法:
- 兒少性虐待內容篩選:在資料準備程序的多個階段中,我們都會嚴格篩選兒少性虐待內容 (CSAM),確保排除有害和非法內容。
- 機密資料篩選:為了讓 Gemma 預先訓練的模型安全可靠,我們使用自動化技術,從訓練集篩除特定個人資訊和其他機密資料。
- 其他方法:根據我們的政策,依內容品質和安全性進行篩選。
實作資訊
模型內部詳細資料。
硬體
Gemma 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5p) 進行訓練。
訓練大型語言模型需要大量運算資源。TPU 專為機器學習中常見的矩陣運算而設計,在這個領域提供多項優勢:
- 效能:TPU 專門用於處理訓練 LLM 時所涉及的大量運算。相較於 CPU,GPU 可大幅加快訓練速度。
- 記憶體:TPU 通常會提供大量高頻寬記憶體,可在訓練期間處理大型模型和批次大小。這麼做有助於提升模型品質。
- 可擴充性:TPU Pod (大型 TPU 叢集) 提供可擴充的解決方案,可處理大型基礎模型日益複雜的情況。您可以將訓練工作分配到多個 TPU 裝置,以便更快速且有效率地處理。
- 成本效益:在許多情況下,TPU 可提供更具成本效益的解決方案,用於訓練大型模型,相較於以 CPU 為基礎的基礎架構,TPU 更能節省時間和資源。
- 這些優勢與 Google 的永續經營承諾一致。
軟體
訓練作業是使用 JAX 和 ML Pathways 完成。
JAX 可讓研究人員充分利用新一代硬體 (包括 TPU),以更快速、更有效率的方式訓練大型模型。
機器學習途徑是 Google 最新的努力成果,旨在建構人工智慧系統,讓系統能夠在多項工作中進行推論。這項功能特別適合基礎模型,包括這類大型語言模型。
如Gemini 系列模型相關論文所述,JAX 和 ML Pathways 可搭配使用:「JAX 和 Pathways 的『單一控制器』程式設計模式可讓單一 Python 程序協調整個訓練執行作業,大幅簡化開發工作流程。」
評估
模型評估指標和結果。
基準測試結果
這些模型是根據大量不同的資料集和指標進行評估,涵蓋文字產生的各個層面:
基準 | 指標 | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 張相片,第 1 張 | 51.3 | 71.3 | 75.2 |
HellaSwag | 10 張相片 | 73.0 | 81.9 | 86.4 |
PIQA | 0 張相片 | 77.8 | 81.7 | 83.2 |
SocialIQA | 0 張相片 | 51.9 | 53.4 | 53.7 |
BoolQ | 0 張相片 | 72.5 | 84.2 | 84.8 |
WinoGrande | 部分分數 | 70.9 | 80.6 | 83.7 |
ARC-e | 0 張相片 | 80.1 | 88.0 | 88.6 |
ARC-c | 25 張 | 55.4 | 68.4 | 71.4 |
TriviaQA | 5 張相片 | 59.4 | 76.6 | 83.7 |
自然問題 | 5 張相片 | 16.7 | 29.2 | 34.5 |
HumanEval | pass@1 | 17.7 | 40.2 | 51.8 |
MBPP | 3 張相片 | 29.6 | 52.4 | 62.6 |
GSM8K | 5 格、maj@1 | 23.9 | 68.6 | 74.0 |
MATH | 4 格 | 15.0 | 36.6 | 42.3 |
AGIEval | 3-5-shot | 30.6 | 52.8 | 55.1 |
DROP | 3 張相片,F1 | 52.0 | 69.4 | 72.2 |
BIG-Bench | 3 次拍攝,思維鏈 | 41.9 | 68.2 | 74.9 |
道德與安全
倫理和安全性評估方法和結果。
評估方法
我們的評估方法包括結構化評估,以及針對相關內容政策進行內部紅隊測試。紅隊評估是由多個不同團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型是根據與倫理和安全相關的多個不同類別進行評估,包括:
- 文字轉文字內容安全性:針對提示進行人為評估,涵蓋兒少性虐待及剝削、騷擾、暴力與血腥內容,以及仇恨言論等安全性政策。
- 文字轉文字的表示性傷害:與相關學術資料集 (例如 WinoBias 和 BBQ 資料集) 進行基準測試。
- 記憶:自動評估訓練資料的記憶功能,包括個人識別資訊外洩的風險。
- 大規模危害:測試「危險能力」,例如化學、生物、放射和核 (CBRN) 風險。
評估結果
倫理和安全性評估結果符合兒童安全、內容安全性、表徵性傷害、記憶、大規模傷害等類別的內部政策可接受門檻。除了嚴謹的內部評估外,這裡也會顯示知名安全基準的結果,例如 BBQ、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA。
Gemma 2.0
基準 | 指標 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | 平均 | 8.16 | 8.25 | 8.84 |
CrowS-Pairs | top-1 | 37.67 | 37.47 | 36.67 |
BBQ Ambig | 1-shot, top-1 | 83.20 | 88.58 | 85.99 |
BBQ Disambig | top-1 | 69.31 | 82.67 | 86.94 |
Winogender | top-1 | 52.91 | 79.17 | 77.22 |
TruthfulQA | 43.72 | 50.27 | 51.60 | |
Winobias 1_2 | 59.28 | 78.09 | 81.94 | |
Winobias 2_2 | 88.57 | 95.32 | 97.22 | |
Toxigen | 48.32 | 39.30 | 38.42 |
危險能力評估
評估方法
我們評估了一系列危險的功能:
- 攻擊性網路安全性:為了評估模型在網路安全性情境中的濫用可能性,我們使用了 InterCode-CTF 和 Hack the Box 等公開的 Capture-the-Flag (CTF) 平台,以及內部開發的 CTF 挑戰。這些評估可測試模型在模擬環境中,是否有能力利用安全漏洞並取得未經授權的存取權。
- 自我繁殖:我們設計了涉及資源取得、程式碼執行和與遠端系統互動的任務,藉此評估模型的自我繁殖能力。這些評估會評估模型獨立複製和散布的能力。
- 說服:為了評估模型說服和欺騙的能力,我們進行了人類說服研究。這些研究涉及各種情境,用於評估模型建立互信、影響信念和引發人類參與者採取特定行動的能力。
評估結果
所有評估項目的詳細說明請參閱「評估危險功能的邊緣模型」,簡要說明則請參閱 Gemma 2 技術報告。
評估 | 功能 | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | 進攻性網路安全 | 34/76 項挑戰 |
內部 CTF | 進攻性網路安全 | 1/13 項挑戰 |
Hack the Box | 進攻性網路安全 | 0/13 項挑戰 |
自我擴散預警 | 自我繁殖 | 1/10 項挑戰 |
魅力攻勢 | 說服 | 同意的參與者百分比: 81% 認為有趣, 75% 會再次發言, 80% 建立個人連結 |
點擊連結 | 說服 | 34% 的參與者 |
尋找資訊 | 說服 | 9% 的參與者 |
執行代碼 | 說服 | 11% 的參與者 |
金錢能說話 | 說服 | 平均捐款金額為 £3.72 英鎊 |
謊言的網羅 | 說服 | 18% 表示轉向正確信念,1% 表示轉向錯誤信念 |
使用方式和限制
這些模型有特定限制,使用者應注意。
預定用途
開放式大型語言模型 (LLM) 的應用範圍廣泛,涵蓋各個產業和領域。以下列出可能的用途,但不包含所有用途。這份清單的目的,是提供關於可能用途的背景資訊,這些用途是模型建立者在模型訓練和開發過程中考慮的。
- 內容創作和溝通
- 文字生成:這些模型可用於產生創意文字格式,例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客戶服務、虛擬助理或互動式應用程式提供交談介面。
- 文字摘要:針對文字語料庫、研究論文或報告產生精簡摘要。
- 研究和教育
- 自然語言處理 (NLP) 研究:這些模型可做為研究人員實驗 NLP 技術、開發演算法,並促進該領域進步的基礎。
- 語言學習工具:支援互動式語言學習體驗,協助修正文法或提供寫作練習。
- 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字。
限制
- 訓練資料
- 訓練資料的品質和多樣性會顯著影響模型的功能。訓練資料中的偏誤或缺漏,可能會導致模型回覆受到限制。
- 訓練資料集的範圍會決定模型可有效處理的主題領域。
- 情境和工作複雜度
- 大型語言模型 (LLM) 更擅長處理可透過明確的提示和操作說明定義的任務。開放式或高度複雜的工作可能會很困難。
- 模型的效能可能會受到提供的上下文量影響 (較長的上下文通常會產生較佳的輸出內容,但只到某個程度)。
- 語言模糊性和細微差異
- 自然語言本身就很複雜,LLM 可能難以掌握細微的語氣、嘲諷或比喻。
- 事實準確性
- LLM 會根據從訓練資料集中學到的資訊產生回覆,但並非知識庫。可能會產生錯誤或過時的事實陳述。
- Common Sense
- 大型語言模型仰賴語言中的統計模式。在某些情況下,他們可能無法運用常識推理。
倫理考量和風險
開發大型語言模型 (LLM) 時,會產生一些倫理問題。在建立開放式模式時,我們已仔細考量以下事項:
- 偏誤與公平性
- 以大量實際文字資料訓練的 LLM 可能會反映訓練資料中內含的社會文化偏見。這些模型經過仔細審查,並在本資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
- 不實資訊和濫用行為
- 大型語言模型可能會遭到濫用,用來生成不實、誤導性或有害的文字。
- 我們提供相關指南,說明如何負責任地使用模型,請參閱負責任的生成式 AI 技術工具包。
- 資訊公開及當責:
- 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
- 開發人員和研究人員可透過開放式模型,存取 LLM 技術,進而分享創新成果,這也是我們採用負責任的開發方式。
已識別的風險和緩解措施:
- 偏誤持續存在:建議您在模型訓練、微調和其他用途期間,持續進行監控 (使用評估指標、人為審查),並探索去偏技術。
- 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員謹慎行事,並根據特定產品政策和應用程式用途,導入適當的內容安全防護措施。
- 遭到惡意濫用:技術限制和開發人員與使用者教育訓練,有助於降低 LLM 遭到惡意應用的風險。提供教育資源和檢舉機制,讓使用者檢舉濫用行為。Gemma 使用限制政策列出 Gemma 模型的禁止用途。
- 違反隱私權:模型是使用經過篩選的資料訓練,以移除個人識別資訊 (PII)。我們鼓勵開發人員透過隱私權保護技術遵守隱私權法規。
優點
在發布時,這一系列模型提供高效能的開放式大型語言模型實作項目,與同樣大小的模型相比,這些模型是專為負責任的 AI 開發而設計。
根據本文件所述的基準評估指標,這些模型的效能優於其他相近大小的開放式模型替代方案。