型錄頁面:Gemma
資源和技術文件:
使用條款:條款
作者:Google
型號資訊
輸入和輸出的摘要說明和簡短定義。
說明
Gemma 是 Google 推出的一系列先進輕量級開放式模型,採用與建立 Gemini 模型時相同的研究成果和技術打造而成。這些模型是文字轉文字、僅解碼器的大型語言模型,可用於英文,並提供開放權重、預先訓練變化版本和指令調整變化版本。Gemma 模型非常適合用於各種文字生成工作,包括回答問題、摘要和推理。由於其大小相對較小,因此可在資源有限的環境中部署,例如筆電、電腦或您自己的雲端基礎架構,讓所有人都能使用先進的 AI 模型,並協助促進創新。
輸入和輸出
- 輸入內容:文字字串,例如問題、提示或要摘要的文件。
- 輸出內容:針對輸入內容產生的英文文字,例如問題的答案或文件摘要。
引用內容
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
模型資料
用於模型訓練的資料,以及資料的處理方式。
訓練資料集
這些模型的訓練資料是文字資料,包含多種來源,總計 6 兆個符記。以下是主要元件:
- 網頁文件:多樣化的網頁文字集合,可確保模型接觸到多種語言風格、主題和字彙。主要為英文內容。
- 程式碼:將模型公開給程式碼,有助於模型學習程式設計語言的語法和模式,進而提升模型產生程式碼或瞭解程式碼相關問題的能力。
- 數學:訓練數學文字有助於模型學習邏輯推理、符號表示法,並解決數學查詢。
這些多樣化的資料來源結合起來,對於訓練強大的語言模型至關重要,因為這種模型可處理各種不同的工作和文字格式。
資料預先處理
以下是套用於訓練資料的關鍵資料清理和篩選方法:
- 兒少性虐待內容篩選:在資料準備程序的多個階段中,我們都會嚴格篩選兒少性虐待內容 (CSAM),確保排除有害和非法內容。
- 機密資料篩選:為了讓 Gemma 預先訓練的模型安全可靠,我們使用自動化技術,從訓練集篩除特定個人資訊和其他機密資料。
- 其他方法:根據我們的政策,依據內容品質和安全性進行篩選。
實作資訊
模型內部詳細資料。
硬體
Gemma 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 進行訓練。
訓練大型語言模型需要大量運算資源。TPU 專為機器學習中常見的矩陣運算而設計,在這個領域提供多項優勢:
- 效能:TPU 專門用於處理訓練 LLM 時所涉及的大量運算。相較於 CPU,GPU 可大幅加快訓練速度。
- 記憶體:TPU 通常會提供大量高頻寬記憶體,可在訓練期間處理大型模型和批次大小。這麼做有助於提升模型品質。
- 可擴充性:TPU Pod (大型 TPU 叢集) 提供可擴充的解決方案,可處理大型基礎模型日益複雜的情況。您可以將訓練工作分配到多個 TPU 裝置,以便更快速且有效率地處理。
- 成本效益:在許多情況下,TPU 可提供更具成本效益的解決方案,用於訓練大型模型,相較於以 CPU 為基礎的基礎架構,TPU 更能節省時間和資源。
- 這些優勢與 Google 的永續經營承諾一致。
軟體
訓練作業是使用 JAX 和 ML Pathways 完成。
JAX 可讓研究人員充分利用新一代硬體 (包括 TPU),以更快速、更有效率的方式訓練大型模型。
機器學習途徑是 Google 最新的努力成果,旨在建構人工智慧系統,讓系統能夠在多項工作中進行推論。這項功能特別適合基礎模型,包括這類大型語言模型。
如Gemini 系列模型相關論文所述,JAX 和 ML Pathways 可搭配使用:「JAX 和 Pathways 的『單一控制器』程式設計模式可讓單一 Python 程序協調整個訓練執行作業,大幅簡化開發工作流程。」
評估
模型評估指標和結果。
基準測試結果
這些模型是根據大量不同的資料集和指標進行評估,涵蓋文字產生的各個層面:
基準 | 指標 | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 張相片,第 1 張 | 42.3 | 64.3 |
HellaSwag | 0 張相片 | 71.4 | 81.2 |
PIQA | 0 張相片 | 77.3 | 81.2 |
SocialIQA | 0 張相片 | 49.7 | 51.8 |
BoolQ | 0 張相片 | 69.4 | 83.2 |
WinoGrande | 部分分數 | 65.4 | 72.3 |
CommonsenseQA | 7 張相片 | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5 張相片 | 53.2 | 63.4 |
自然問題 | 5 張相片 | 12.5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3 張相片 | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4 格 | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
平均 | 44.9 | 56.4 |
道德與安全
倫理和安全性評估方法和結果。
評估方法
我們的評估方法包括結構化評估,以及針對相關內容政策進行內部紅隊測試。紅隊評估是由多個不同團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型是根據與倫理和安全相關的多個不同類別進行評估,包括:
- 文字轉文字內容安全性:針對提示進行人為評估,涵蓋兒少性虐待及剝削、騷擾、暴力與血腥內容,以及仇恨言論等安全性政策。
- 文字轉文字的表示性傷害:與相關學術資料集 (例如 WinoBias 和 BBQ 資料集) 進行基準測試。
- 記憶:自動評估訓練資料的記憶功能,包括個人識別資訊外洩的風險。
- 大規模危害:測試「危險能力」,例如化學、生物、放射和核 (CBRN) 風險。
評估結果
倫理和安全性評估結果符合兒童安全、內容安全性、表徵性傷害、記憶、大規模傷害等類別的內部政策可接受門檻。除了嚴謹的內部評估外,這裡也會顯示知名安全基準的結果,例如 BBQ、BOLD、Winogender、Winobias、RealToxicity 和 TruthfulQA。
Gemma 1.0
基準 | 指標 | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | 平均 | 6.86 | 7.90 |
粗體 | 45.57 | 49.08 | |
CrowS-Pairs | top-1 | 45.82 | 51.33 |
BBQ Ambig | 1-shot, top-1 | 62.58 | 92.54 |
BBQ Disambig | top-1 | 54.62 | 71.99 |
Winogender | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
基準 | 指標 | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | 平均 | 7.03 | 8.04 |
粗體 | 47.76 | ||
CrowS-Pairs | top-1 | 45.89 | 49.67 |
BBQ Ambig | 1-shot, top-1 | 58.97 | 86.06 |
BBQ Disambig | top-1 | 53.90 | 85.08 |
Winogender | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
使用方式和限制
這些模型有特定限制,使用者應注意。
預定用途
開放式大型語言模型 (LLM) 的應用範圍廣泛,涵蓋各個產業和領域。以下列出可能的用途,但不包含所有用途。這份清單的目的,是提供關於可能用途的背景資訊,讓模型建立者在訓練及開發模型時參考。
- 內容創作和溝通
- 文字生成:這些模型可用於產生創意文字格式,例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客戶服務、虛擬助理或互動式應用程式提供交談介面。
- 文字摘要:針對文字語料庫、研究論文或報告產生精簡摘要。
- 研究和教育
- 自然語言處理 (NLP) 研究:這些模型可做為研究人員實驗 NLP 技術、開發演算法,並促進該領域進步的基礎。
- 語言學習工具:支援互動式語言學習體驗,協助修正文法或提供寫作練習。
- 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字。
限制
- 訓練資料
- 訓練資料的品質和多樣性會顯著影響模型的功能。訓練資料中的偏誤或缺漏,可能會導致模型回覆受到限制。
- 訓練資料集的範圍會決定模型可有效處理的主題領域。
- 情境和工作複雜度
- 大型語言模型 (LLM) 更擅長處理可透過明確的提示和操作說明定義的任務。開放式或高度複雜的工作可能會很困難。
- 模型的效能可能會受到提供的上下文量影響 (較長的上下文通常會產生較佳的輸出內容,但只到某個程度)。
- 語言模糊性和細微差異
- 自然語言本身就很複雜,LLM 可能難以掌握細微的語氣、嘲諷或比喻。
- 事實準確性
- LLM 會根據從訓練資料集中學到的資訊產生回覆,但並非知識庫。可能會產生錯誤或過時的事實陳述。
- Common Sense
- 大型語言模型仰賴語言中的統計模式。在某些情況下,他們可能無法運用常識推理。
倫理考量和風險
開發大型語言模型 (LLM) 時,會產生一些倫理問題。在建立開放式模式時,我們已仔細考量以下事項:
- 偏誤與公平性
- 以大量實際文字資料訓練的 LLM 可能會反映訓練資料中內含的社會文化偏見。這些模型經過仔細審查,並在本資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
- 不實資訊和濫用行為
- 大型語言模型可能會遭到濫用,用來生成不實、誤導性或有害的文字。
- 我們提供相關指南,說明如何負責任地使用模型,請參閱負責任的生成式 AI 技術工具包。
- 資訊公開及當責:
- 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
- 開發人員和研究人員可透過開放式模型,存取 LLM 技術,進而分享創新成果,這也是我們採用負責任的開發方式。
已識別的風險和緩解措施:
- 偏誤持續存在:建議您在模型訓練、微調和其他用途期間,持續進行監控 (使用評估指標、人為審查),並探索去偏技術。
- 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員謹慎行事,並根據特定產品政策和應用程式用途,導入適當的內容安全防護措施。
- 遭到惡意濫用:技術限制和開發人員與使用者教育訓練,有助於降低 LLM 遭到惡意應用的風險。提供教育資源和檢舉機制,讓使用者檢舉濫用行為。Gemma 使用限制政策列出 Gemma 模型的禁止用途。
- 違反隱私權:模型是使用經過篩選的資料訓練,以移除個人識別資訊 (PII)。我們鼓勵開發人員透過隱私權保護技術遵守隱私權法規。
優點
在發布時,這一系列模型提供高效能的開放式大型語言模型實作項目,與同類型模型相比,這些模型是專為負責任的 AI 開發而設計。
根據本文件所述的基準評估指標,這些模型的效能優於其他相近大小的開放式模型替代方案。