RecurrentGemma 模型資訊卡

模型頁面: RecurrentGemma

資源和技術說明文件:

使用條款: 條款

作者:Google

款式資訊

模型摘要

說明

RecurrentGemma 是一系列開放式語言模型,以循環演變革命為基礎 由 Google 開發的架構兩者皆有 但具備預先訓練和經過指示調整的版本 (僅提供英文版)。

如同 Gemma,RecurrentGemma 模型非常適合各種文字 像是回答問題、總結和推理 RecurrentGemma 採用創新架構後,需要的記憶體容量少於 Gemma 可在產生長序列時加快推論速度。

輸入和輸出

  • 輸入內容:文字字串 (例如問題、提示或文件) )。
  • 輸出:回應輸入內容產生的英文文字 (例如 問題的答案、文件摘要)。

引用內容

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

模型資料

訓練資料集和資料處理

RecurrentGemma 使用的訓練資料和資料處理 Gemma 模型系列。如需完整說明,請參閱 Gemma 模型 資訊卡

導入資訊

訓練期間使用的硬體和架構

喜歡 Gemma RecurrentGemma 用來訓練 TPUv5e、 透過 JAXML 課程

評估作業資訊

基準測試結果

評估方法

我們使用大量不同的資料集評估這些模型, 來分析文字生成的各個層面:

評估結果

基準 指標 循環 Gemma 2B 循環 Gemma 9B
MMLU 5 張鏡頭,Top-1 38.4 60.5
HellaSwag 0 桿 71.0 版 80.4
PIQA 0 桿 78.5 分 81.3
SocialIQA 0 桿 51.8 52.3
BoolQ 0 桿 71.3 80.3
WinoGrande 部分分數 67.8 73.6
CommonsenseQA 7 張 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 人 78.8
ARC-c 42.3 52.0
TriviaQA 5 張 52.5 70.5
自然問題 5 張 11.5 21.7
HumanEval Pass@1 21.3 31.1
MBPP 3 張 28.8 42.0 版
GSM8K maj@1 13.4 42.6
MATH 4 桿 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
平均 44.6 人 56.1

倫理與安全

倫理與安全評估

評估方法

我們的評估方法包括結構化的評估和內部紅隊演練 測試相關內容政策紅隊演練 每個團隊都有不同的目標和人工評估指標這些 並根據相關的各種類別評估模型 倫理道德規範,包括:

  • 文字轉文字內容安全:針對安全性提示進行人工評估 包括兒少性虐待及剝削、騷擾、暴力等政策 以及仇恨言論
  • 文字轉文字說明危害:針對相關學術機構進行基準測試 例如 WinoBias 和烤肉資料集
  • 記憶:自動評估訓練資料、 包括個人識別資訊洩露的風險
  • 大規模傷害:測試「危險功能」,例如化學、 生物、放射和核子 (CBRN) 風險;以及適用於 說服與欺騙、網路安全和自主複製能力。

評估結果

倫理和安全評估的結果在可接受的範圍內 會議專用 政策 針對兒童安全、內容安全、陳述性危害 記憶、大規模傷害除了強大的內部評估之外 烤肉、Winogender、WinoBias 這裡會顯示 RealToxicity 和真實品質確保。

基準 指標 循環 Gemma 2B 循環性 Gemma 20 (IT) 循環 Gemma 9B 循環性 Gemma 90 億 IT
RealToxicity 平均 9.8 7.60 美元 10.3 8.8
BOLD 39.3 52.3 39.8 47.9 人
烏鴉配對 top-1 41.1 43.4 38.7 39.5
BBQ 阿米比文 top-1 62.6 71.1 95.9 人 67.1
BBQ 料理 top-1 58.4 50.8 78.6 分 78.9
Winogender top-1 55.1 54.7 59.0 版 64.0 版
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 版 75.4 90.2 版 90.3 分
Toxigen 56.7 50.0 58.8 64.5

模型使用情形和限制

已知限制

這些模型有某些限制,而使用者應留意:

  • 訓練資料
    • 訓練資料的品質和多樣性會大幅影響 模型的功能訓練資料中的偏誤或缺口 能產生限制
    • 訓練資料集的範圍會決定模型的主體領域 都能有效處理
  • 背景資訊和任務複雜度
    • LLM 較適合用來為工作建立框架和明確的提示 操作說明。開放式或高度複雜的工作可能具有挑戰性。
    • 模型的成效取決於情境量 提供的 ID 越長越好,這樣輸出的成效通常更好, 特定點)。
  • 語言模糊度和細微差異
    • 自然語言本質上就很複雜。LLM 可能難以掌握狀況 細微差異、諷刺或猜測用語。
  • 事實查核
    • 大型語言模型會根據 但不是知識庫使用者可能會 不正確或過時的事實陳述
  • 常識
    • LLM 仰賴的語言統計模式。他們可能缺少 在某些情況下,採用常識推理。

倫理考量和風險

大型語言模型 (LLM) 的開發會引發許多倫理疑慮。 建立開放式模型時,我們會仔細考量下列事項:

  • 偏誤和公平性
    • 以大量實際文字資料訓練而成的 LLM 訓練教材中內嵌的社會文化偏見這些模型 經過仔細審查的輸入資料 這張資訊卡中報告的後期評估。
  • 不實資訊和濫用
    • LLM 可能遭到濫用,生成文字有誤、具誤導性 有害。
    • 我們會提供指南,協助您以負責任的方式使用模型。請參閱 負責任的生成式 AI 工具包
  • 透明度和可靠度
    • 這張模型資訊卡總結出這些模型的詳細資料架構 能力、限制和評估程序
    • 秉持負責態度開發的開放式模型 讓開發人員能輕鬆使用 LLM 技術 整個 AI 生態系統中的研究人員

已識別和緩解的風險:

  • 滲透偏誤:建議持續監控偏誤 (透過評估指標和專人審查) 以及去蕪存菁 能訓練模型、微調和其他用途
  • 產生有害內容的方式:內容的機制和規範 安全至關重要開發人員應謹慎行事 根據其具體情況 產品政策和應用程式用途
  • 誤用:技術限制和開發人員和 使用者教育有助於減少 LLM 的惡意應用方式。 可供使用者檢舉濫用行為的教育資源和檢舉機制, 或更新提示有關 Gemma 模型禁止的使用行為,請參閱我們的 使用方式
  • 侵犯隱私權:模型的訓練資料會經過篩選,以便移除 個人識別資訊 (PII)。我們建議開發人員 遵循隱私權法規和隱私權保護技術。

預定用途

應用程式

開放式大型語言模型 (LLM) 在各種平台中 不同的產業和領域以下列出可能的用途 全面這份清單的用途是提供相關情境資訊 模型創作者考慮到模型的可能用途 訓練與開發模型

  • 內容創作與溝通
    • 文字產生:這些模型可用來產生廣告素材文字 例如詩詞、腳本、程式碼、行銷文案和電子郵件草稿等
    • 聊天機器人和對話式 AI:強大的對話式介面, 或互動式應用程式
    • 文字摘要:生成文字語料的精簡摘要。 研究論文或報告
  • 研究和教育
    • 自然語言處理 (NLP) 研究:這些模型 是研究人員嘗試各種自然語言處理技術的實驗基礎 發展演算法,促進這領域的發展
    • 語言學習工具:支援互動式語言學習 包括文法校正或提供寫作練習
    • 知識探索:協助研究人員探索大型身體 生成摘要或回答相關問題 主題。

優點

這一系列的模型在發布時可提供高效能 專為負責任地設計的大型語言模型實作 與規模相近的模型相比,負責任的 AI 技術開發成效。

我們利用本文件所述的基準評估指標,使用這些模型 經證實為其他同等規模的開放式模型可提供優異效能 替代解決方案

尤其是 RecurrentGemma 模型,能達到與 Gemma 不相上下的效能 但推論期間的速度更快,所需的記憶體也較少 長序列相輔相成