模型頁面: RecurrentGemma
資源和技術說明文件:
使用條款: 條款
作者:Google
款式資訊
模型摘要
說明
RecurrentGemma 是一系列開放式語言模型,以循環演變革命為基礎 由 Google 開發的架構兩者皆有 但具備預先訓練和經過指示調整的版本 (僅提供英文版)。
如同 Gemma,RecurrentGemma 模型非常適合各種文字 像是回答問題、總結和推理 RecurrentGemma 採用創新架構後,需要的記憶體容量少於 Gemma 可在產生長序列時加快推論速度。
輸入和輸出
- 輸入內容:文字字串 (例如問題、提示或文件) )。
- 輸出:回應輸入內容產生的英文文字 (例如 問題的答案、文件摘要)。
引用內容
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
模型資料
訓練資料集和資料處理
RecurrentGemma 使用的訓練資料和資料處理 Gemma 模型系列。如需完整說明,請參閱 Gemma 模型 資訊卡。
導入資訊
訓練期間使用的硬體和架構
喜歡 Gemma RecurrentGemma 用來訓練 TPUv5e、 透過 JAX 和 ML 課程。
評估作業資訊
基準測試結果
評估方法
我們使用大量不同的資料集評估這些模型, 來分析文字生成的各個層面:
評估結果
基準 | 指標 | 循環 Gemma 2B | 循環 Gemma 9B |
---|---|---|---|
MMLU | 5 張鏡頭,Top-1 | 38.4 | 60.5 |
HellaSwag | 0 桿 | 71.0 版 | 80.4 |
PIQA | 0 桿 | 78.5 分 | 81.3 |
SocialIQA | 0 桿 | 51.8 | 52.3 |
BoolQ | 0 桿 | 71.3 | 80.3 |
WinoGrande | 部分分數 | 67.8 | 73.6 |
CommonsenseQA | 7 張 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 人 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5 張 | 52.5 | 70.5 |
自然問題 | 5 張 | 11.5 | 21.7 |
HumanEval | Pass@1 | 21.3 | 31.1 |
MBPP | 3 張 | 28.8 | 42.0 版 |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 桿 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
平均 | 44.6 人 | 56.1 |
倫理與安全
倫理與安全評估
評估方法
我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:
- 文字轉文字內容安全:針對安全性提示進行人工評估 包括兒少性虐待及剝削、騷擾、暴力等政策 以及仇恨言論
- 文字轉文字說明危害:針對相關學術機構進行基準測試 例如 WinoBias 和烤肉資料集
- 記憶:自動評估訓練資料、 包括個人識別資訊洩露的風險
- 大規模傷害:測試「危險功能」,例如化學、 生物、放射和核子 (CBRN) 風險;以及適用於 說服與欺騙、網路安全和自主複製能力。
評估結果
倫理和安全評估的結果在可接受的範圍內 會議專用 政策 針對兒童安全、內容安全、陳述性危害 記憶、大規模傷害除了強大的內部評估之外 烤肉、Winogender、WinoBias 這裡會顯示 RealToxicity 和真實品質確保。
基準 | 指標 | 循環 Gemma 2B | 循環性 Gemma 20 (IT) | 循環 Gemma 9B | 循環性 Gemma 90 億 IT |
---|---|---|---|---|---|
RealToxicity | 平均 | 9.8 | 7.60 美元 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 人 | |
烏鴉配對 | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ 阿米比文 | top-1 | 62.6 | 71.1 | 95.9 人 | 67.1 |
BBQ 料理 | top-1 | 58.4 | 50.8 | 78.6 分 | 78.9 |
Winogender | top-1 | 55.1 | 54.7 | 59.0 版 | 64.0 版 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 版 | 75.4 | 90.2 版 | 90.3 分 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
模型使用情形和限制
已知限制
這些模型有某些限制,而使用者應留意:
- 訓練資料
- 訓練資料的品質和多樣性會大幅影響 模型的功能訓練資料中的偏誤或缺口 能產生限制
- 訓練資料集的範圍會決定模型的主體領域 都能有效處理
- 背景資訊和任務複雜度
- LLM 較適合用來為工作建立框架和明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
- 模型的成效取決於情境量 提供的 ID 越長越好,這樣輸出的成效通常更好, 特定點)。
- 語言模糊度和細微差異
- 自然語言本質上就很複雜。LLM 可能難以掌握狀況 細微差異、諷刺或猜測用語。
- 事實查核
- 大型語言模型會根據 但不是知識庫使用者可能會 不正確或過時的事實陳述
- 常識
- LLM 仰賴的語言統計模式。他們可能缺少 在某些情況下,採用常識推理。
倫理考量和風險
大型語言模型 (LLM) 的開發會引發許多倫理疑慮。 建立開放式模型時,我們會仔細考量下列事項:
- 偏誤和公平性
- 以大量實際文字資料訓練而成的 LLM 訓練教材中內嵌的社會文化偏見這些模型 經過仔細審查的輸入資料 這張資訊卡中報告的後期評估。
- 不實資訊和濫用
- LLM 可能遭到濫用,生成文字有誤、具誤導性 有害。
- 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包。
- 透明度和可靠度
- 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
- 秉持負責態度開發的開放式模型 讓開發人員能輕鬆使用 LLM 技術 整個 AI 生態系統中的研究人員
已識別和緩解的風險:
- 滲透偏誤:建議持續監控偏誤 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
- 產生有害內容的方式:內容的機制和規範 安全至關重要開發人員應謹慎行事 根據其具體情況 產品政策和應用程式用途
- 誤用:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 或更新提示有關 Gemma 模型禁止的使用行為,請參閱我們的 使用方式。
- 侵犯隱私權:模型的訓練資料會經過篩選,以便移除 個人識別資訊 (PII)。我們建議開發人員 遵循隱私權法規和隱私權保護技術。
預定用途
應用程式
開放式大型語言模型 (LLM) 在各種平台中 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型
- 內容創作與溝通
- 文字產生:這些模型可用來產生廣告素材文字 例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿等
- 聊天機器人和對話式 AI:強大的對話式介面, 或互動式應用程式
- 文字摘要:生成文字語料的精簡摘要。 研究論文或報告
- 研究和教育
- 自然語言處理 (NLP) 研究:這些模型 是研究人員嘗試各種自然語言處理技術的實驗基礎 發展演算法,促進這領域的發展
- 語言學習工具:支援互動式語言學習 包括文法校正或提供寫作練習
- 知識探索:協助研究人員探索大型身體 生成摘要或回答相關問題 主題。
優點
這一系列的模型在發布時可提供高效能 專為負責任地設計的大型語言模型實作 與規模相近的模型相比,負責任的 AI 技術開發成效。
我們利用本文件所述的基準評估指標,使用這些模型 經證實為其他同等規模的開放式模型可提供優異效能 替代解決方案
尤其是 RecurrentGemma 模型,能達到與 Gemma 不相上下的效能 但推論期間的速度更快,所需的記憶體也較少 長序列相輔相成