模型頁面: RecurrentGemma
資源和技術說明文件:
使用條款: 條款
作者:Google
款式資訊
模型摘要
說明
RecurrentGemma 是一系列開放式語言模型,以 Google 開發的創新再生架構為基礎。而且預先訓練和經過指導調整的版本都支援英文。
RecurrentGemma 模型和 Gemma 一樣,非常適合用於各種文字產生工作,包括問題回答、摘要和推理。由於 RecurrentGemma 採用的新架構,需要的記憶體比 Gemma 少,而且產生長序列時的推論速度更快。
輸入和輸出
- 輸入內容:文字字串 (例如問題、提示或要摘要的文件)。
- 輸出:依據輸入內容產生的英文文字 (例如問題的答案、文件摘要)。
引文
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型資料
訓練資料集和資料處理
RecurrentGemma 使用的訓練資料和資料處理皆與 Gemma 模型系列相同。如需完整說明,請參閱 Gemma 模型資訊卡。
導入資訊
訓練期間使用的硬體和架構
和 Gemma 一樣,RecurrentGemma 是使用 JAX 和 MLPath 透過 TPUv5e 進行訓練。
評估作業資訊
基準測試結果
評估方法
我們會根據大量的不同資料集和指標評估這些模型,以涵蓋文字生成的不同層面:
評估結果
Benchmark | 指標 | 循環 Gemma 2B | 循環 Gemma 9B |
---|---|---|---|
菜單 | 5 張鏡頭,Top-1 | 38.4 | 60.5 |
HellaSwag | 0 桿 | 71.0 版 | 80.4 |
PIQA | 0 桿 | 78.5 分 | 81.3 |
SocialIQA | 0 桿 | 51.8 | 52.3 |
BoolQ | 0 桿 | 71.3 | 80.3 |
WinoGrande | 部分分數 | 67.8 | 73.6 |
CommonsenseQA | 7 張 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 人 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 張 | 52.5 | 70.5 |
自然問題 | 5 張 | 11.5 | 21.7 |
HumanEval | Pass@1 | 21.3 | 31.1 |
MBPP | 3 張 | 28.8 | 42.0 版 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 桿 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
平均 | 44.6 人 | 56.1 |
倫理與安全
倫理與安全評估
評估方法
我們的評估方法包括結構化評估,以及相關內容政策的內部紅隊測試。紅隊由多個不同的團隊執行,每個團隊都有不同的目標和人工評估指標。我們會根據許多與倫理和安全相關的各種類別評估這些模型,包括:
- 文字轉文字內容安全:以人工方式評估有關安全政策的內容,包括兒少性虐待和剝削、騷擾、暴力和血腥內容。
- 文字轉文字表示法傷害:針對相關學術資料集 (例如 WinoBias 和烤肉資料集) 進行基準測試。
- 記憶:自動評估訓練資料,包括個人識別資訊洩露的風險。
- 大規模傷害:測試「危險功能」,例如化學、生物、放射和核子 (CBRN) 風險,以及迴避與欺騙、網路安全和自主複製的測試。
評估結果
針對兒童安全、內容安全、具象性傷害、記憶性、大規模傷害等類別,倫理和安全評估結果在可接受的門檻範圍內,符合內部政策規定。除了強大的內部評估外,這裡會顯示知名的安全基準,例如:烤肉、Winogender、WinoBias、RealToxicity 以及 TruthfulQA。
Benchmark | 指標 | 循環 Gemma 2B | 循環性 Gemma 20 億 IT | 循環 Gemma 9B | 循環性 Gemma 90 億 IT |
---|---|---|---|---|---|
RealToxicity | 平均 | 9.8 | 7.60 美元 | 10.3 | 8.8 |
粗體 | 39.3 | 52.3 | 39.8 | 47.9 人 | |
烏鴉配對 | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ 阿米比文 | top-1 | 62.6 | 71.1 | 95.9 人 | 67.1 |
BBQ 料理 | top-1 | 58.4 | 50.8 | 78.6 分 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 版 | 64.0 版 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 版 | 75.4 | 90.2 版 | 90.3 分 | |
土製 | 56.7 | 50.0 | 58.8 | 64.5 |
模型使用情形和限制
已知限制
這些模型有某些限制,而使用者應留意:
- 訓練資料
- 訓練資料的品質與多樣性會大幅影響模型的功能。訓練資料中的偏誤或缺口可能會導致模型回應受到限制。
- 訓練資料集的範圍會決定模型可有效處理的主題領域。
- 背景資訊和工作複雜度
- 如果工作須提供明確的提示和操作說明,LLM 較適合用來處理這類工作。開放式或高度複雜的工作可能具有挑戰性。
- 模型的效能可能會受到提供的背景資訊量影響 (較長的背景資訊通常能產生更好的輸出內容,到一定的時間點為止)。
- 語言模糊度和細微差異
- 自然語言本質上就很複雜。LLM 可能難以掌握細微的細微差異、諷刺或代表性的用語
- 事實準確性
- LLM 會根據從訓練資料集學習到的資訊生成回覆,但他們不是知識庫。他們可能會生成錯誤或過時的事實陳述。
- 常識
- LLM 仰賴的語言統計模式。他們在某些情況下可能缺乏應用常理推理的能力。
倫理考量和風險
大型語言模型 (LLM) 的開發會引發許多倫理疑慮。建立開放式模型時,我們會仔細考量下列事項:
- 偏誤和公平性
- 以大規模、實際文字資料訓練而成的 LLM,可能反映出訓練教材內嵌的社會文化偏誤。這些模型會仔細審查、預先處理輸入資料,以及這張資訊卡中報告的後續評估。
- 不實資訊和濫用
- LLM 可能遭到濫用,產生不實、具誤導性或有害的文字。
- 我們提供了關於如何以負責任的方式使用模型的指南,請參閱「負責任的生成式 AI 工具包」。
- 透明度和可靠度
- 這張模型資訊卡概略說明模型的架構、功能、限制和評估程序。
- 以負責任的方式開發的開放模型,可讓開發人員和研究人員在整個 AI 生態系統中使用 LLM 技術,藉此分享創新。
已識別和緩解的風險:
- 滲透偏誤:建議您在模型訓練、微調及其他用途期間,執行持續監控 (使用評估指標、人工審查) 並探索去偏誤技術。
- 產生有害內容的機制:確保內容安全的機制和指南相當重要。我們鼓勵開發人員謹慎行事,並根據其特定產品政策和應用程式用途採取適當的內容安全保護措施。
- 誤用為惡意目的:技術限制以及開發人員和使用者教育內容,有助於防範 LLM 的惡意應用程式。我們提供教育資源和檢舉機制,方便使用者檢舉濫用行為。關於 Gemma 模型的使用限制,請參閱使用條款。
- 侵犯隱私權:我們訓練模型時採用的資料會篩除 PII (個人識別資訊)。我們鼓勵開發人員遵循隱私權法規和隱私權保護技術。
預定用途
應用程式
開放式大型語言模型 (LLM) 在各種產業和領域都有各式各樣的應用程式。以下清單並未完整說明可能的用途。這份清單的目的是提供模型建立者在訓練和開發模型中可能考慮到的可能用途情境資訊。
- 內容製作與溝通
- 文字產生:這類模型可用來產生創意文字格式,例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿等。
- 聊天機器人和對話式 AI:提供客戶服務、虛擬助理或互動式應用程式的對話式介面。
- 文字摘要:產生文字語料庫、研究論文或報告的簡明摘要。
- 研究與教育
- 自然語言處理 (NLP) 研究:這些模型可做為研究基礎,幫助研究人員測試自然語言處理技術、開發演算法,並對領域的發展做出貢獻。
- 語言學習工具:支援互動式語言學習體驗,包括文法校正或提供寫作練習。
- 知識探索:產生摘要或回答特定主題的問題,協助研究人員探索大量文字內容。
優點
發布時,這一系列的模型提供高效能的開放大型語言模型實作項目,適用於「負責任的 AI 開發」開發方式,與規模相近的模型相比。
我們根據本文件所述的基準評估指標,已證實這些模型能為其他大小相近的開放模型替代項目提供卓越效能。
特別的是,RecurrentGemma 模型提供的效能與 Gemma 模型相當,但推論期間的速度更快,所需的記憶體也較少,特別是在長序列上。