模型頁面: RecurrentGemma
資源和技術文件:
使用條款: 條款
作者:Google
款式資訊
模型摘要
說明
RecurrentGemma 是一系列開放式語言模型,以 Google 開發的新型迴圈架構為基礎。預先訓練和指令調整的版本皆可使用英文。
與 Gemma 一樣,RecurrentGemma 模型非常適合各種文字生成任務,包括回答問題、生成摘要和推理。由於採用新穎的架構,RecurrentGemma 所需的記憶體比 Gemma 少,且在產生長序列時可實現更快速的推論。
輸入和輸出
- 輸入內容:文字字串 (例如問題、提示或要摘要的文件)。
- 輸出內容:根據輸入內容產生的英文文字 (例如問題的答案、文件摘要)。
引用內容
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型資料
訓練資料集和資料處理
RecurrentGemma 會使用與 Gemma 模型系列相同的訓練資料和資料處理方式。如需完整說明,請參閱 Gemma 模型資訊卡。
實作資訊
訓練期間使用的硬體和架構
與 Gemma 一樣,RecurrentGemma 也是在 TPUv5e 上訓練,並使用 JAX 和 ML Pathways。
評估作業資訊
基準測試結果
評估方法
這些模型是根據大量不同的資料集和指標進行評估,涵蓋文字產生的各個層面:
評估結果
基準 | 指標 | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 張相片,第 1 張 | 38.4 | 60.5 |
HellaSwag | 0 張相片 | 71.0 | 80.4 |
PIQA | 0 張相片 | 78.5 | 81.3 |
SocialIQA | 0 張相片 | 51.8 | 52.3 |
BoolQ | 0 張相片 | 71.3 | 80.3 |
WinoGrande | 部分分數 | 67.8 | 73.6 |
CommonsenseQA | 7 張相片 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 張相片 | 52.5 | 70.5 |
自然問題 | 5 張相片 | 11.5 | 21.7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3 張相片 | 28.8 | 42.0 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 格 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
平均 | 44.6 | 56.1 |
道德與安全
倫理和安全性評估
評估方法
我們的評估方法包括結構化評估,以及針對相關內容政策進行內部紅隊測試。紅隊評估是由多個不同團隊進行,每個團隊都有不同的目標和人工評估指標。這些模型是根據與倫理和安全相關的多個不同類別進行評估,包括:
- 文字轉文字內容安全性:針對安全政策 (包括兒少性虐待及剝削、騷擾、暴力和血腥內容、仇恨言論) 進行人為評估。
- 文字轉文字的代表性傷害:與 WinoBias 和 BBQ Dataset 等相關學術資料集進行基準測試。
- 記憶:自動評估訓練資料的記憶功能,包括個人識別資訊外洩的風險。
- 大規模危害:測試「危險能力」,例如化學、生物、放射和核子 (CBRN) 風險;以及測試說服和欺騙、網路安全和自主複製。
評估結果
倫理和安全性評估結果符合兒童安全、內容安全性、表徵性危害、記憶、大規模危害等類別的內部政策可接受門檻。除了嚴謹的內部評估外,這裡也會顯示 BBQ、Winogender、WinoBias、RealToxicity 和 TruthfulQA 等知名安全基準的結果。
基準 | 指標 | RecurrentGemma 2B | 週期性 Gemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | 平均 | 9.8 | 7.60 | 10.3 | 8.8 |
粗體 | 39.3 | 52.3 | 39.8 | 47.9 | |
CrowS-Pairs | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ Ambig | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
BBQ Disambig | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
模型使用方式和限制
已知限制
這些模型有特定限制,使用者應注意:
- 訓練資料
- 訓練資料的品質和多樣性會顯著影響模型的功能。訓練資料中的偏誤或缺口可能會導致模型回應受到限制。
- 訓練資料集的範圍會決定模型可有效處理的主題領域。
- 情境和工作複雜度
- 大型語言模型 (LLM) 更擅長處理可透過明確的提示和操作說明定義的任務。開放式或高度複雜的工作可能會很困難。
- 模型的效能可能會受到提供的背景資訊量影響 (較長的背景資訊通常會產生較佳的輸出內容,但效果會受到限制)。
- 語言模糊和細微差異
- 自然語言本身就很複雜,LLM 可能難以掌握細微的語意、嘲諷或比喻。
- 事實準確性
- LLM 會根據從訓練資料集中學到的資訊產生回覆,但並非知識庫。可能會產生錯誤或過時的事實陳述。
- 常識
- 大型語言模型仰賴語言中的統計模式。在某些情況下,他們可能無法運用常識推理。
倫理考量和風險
開發大型語言模型 (LLM) 時,會產生一些倫理問題。在建立開放式模式時,我們已仔細考量以下事項:
- 偏誤和公平性
- 以大量實際文字資料訓練的 LLM 可能會反映訓練素材內建的社會文化偏見。這些模型經過仔細審查,並在這個資訊卡中說明輸入資料的預先處理方式,以及後續評估結果。
- 不實資訊和濫用行為
- 大型語言模型可能會遭到濫用,產生不實、誤導或有害的文字。
- 我們提供相關指南,說明如何負責任地使用模型,請參閱負責任的生成式 AI 技術工具包。
- 資訊公開及當責
- 這個模型資訊卡會概略說明模型的架構、功能、限制和評估程序。
- 我們以負責任的方式開發開放式模型,讓 AI 生態系統中的開發人員和研究人員都能使用 LLM 技術,進而分享創新成果。
已識別的風險和緩解措施:
- 偏見持續存在:建議您在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、人為審查) 並探索去偏技術。
- 產生有害內容:內容安全機制和指南至關重要。我們建議開發人員謹慎行事,並根據特定產品政策和應用程式用途,實施適當的內容安全防護措施。
- 用於惡意目的:技術限制和開發人員與使用者教育訓練,有助於減少 LLM 遭到惡意應用的情況。提供教育資源和檢舉機制,讓使用者檢舉濫用行為。使用條款中列明瞭 Gemma 模型的禁止用途。
- 違反隱私權:模型是使用經過篩選的資料訓練,以移除個人識別資訊 (PII)。我們鼓勵開發人員採用隱私權保護技術,遵守隱私權法規。
預定用途
應用程式
開放式大型語言模型 (LLM) 的應用範圍廣泛,涵蓋各個產業和領域。以下列出可能的用途,但不包含所有用途。這份清單的目的,是提供關於可能用途的背景資訊,讓模型建立者在訓練及開發模型時參考。
- 內容創作和溝通
- 文字產生:這些模型可用來產生創意文字格式,例如詩詞、劇本、程式碼、行銷文案、電子郵件草稿等。
- 聊天機器人和對話式 AI:為客服、虛擬助理或互動式應用程式提供對話介面。
- 文字摘要:針對文字叢集、研究論文或報告產生精簡摘要。
- 研究和教育
- 自然語言處理 (NLP) 研究:這些模型可做為研究人員實驗 NLP 技術、開發演算法,並協助推動該領域發展的基礎。
- 語言學習工具:支援互動式語言學習體驗,協助校正文法或提供書寫練習。
- 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字。
優點
在發布時,這一系列模型提供高效能的開放式大型語言模型實作項目,與同樣大小的模型相比,這些模型是專為負責任的 AI 開發而設計。
根據本文件所述的基準評估指標,這些模型的效能優於其他相近大小的開放式模型替代方案。
特別是,RecurrentGemma 模型的效能與 Gemma 模型相當,但在推論期間速度更快,且所需記憶體較少,尤其是在長序列中。