Hugging Face |
GitHub |
發布網誌 |
說明文件
授權:Apache 2.0 | 作者:Google DeepMind
DiffusionGemma 是由 Google DeepMind 建構的生成模型,DiffusionGemma 以 26B A4B 專家混合 (MoE) Gemma 4 架構為基礎,使用離散擴散生成權杖。這個開放權重模型屬於多模態,可處理文字、圖片和影片輸入內容,然後生成文字輸出內容。
DiffusionGemma 以 MoE 為基礎,旨在提升生成速度 (每秒生成的權杖數),同時仍可部署至各種硬體環境。DiffusionGemma 以 Gemma 4 的架構和功能為基礎,並推出多項核心功能:
- 離散文字擴散:從逐一詞元自迴歸轉移至區塊自迴歸多畫布取樣,透過平行疊代去噪詞元區塊 (即「畫布」) 生成文字,大幅提升解碼速度。
- 多模態輸入處理:處理交錯的文字、圖片 (支援不同長寬比和解析度) 和影片輸入內容,生成文字輸出內容。
- 編碼器-解碼器架構:使用自動回歸編碼器處理及快取提示內容,並搭配解碼器,在生成畫布上套用雙向注意力。
- 混合專家 (MoE) 效率:採用稀疏 MoE 設計 (128 個專家中,有 8 個處於啟用狀態),提供強大的推論能力,同時維持低記憶體用量,適合在本機執行。
- 思考模式 (推論):設計為功能強大的推論器,並提供可設定的思考模式。
- 專為小批次大小推論最佳化:專為單一功能強大的加速器設計,可實現低延遲、高速生成。
- 原生系統提示支援:與 Gemma 4 一樣,支援更新
system角色,讓對話更結構化且可控。
模型總覽
DiffusionGemma 的設計宗旨是減少標準因果語言模型的連續瓶頸。並採用專為推論速度最佳化的編碼器-解碼器架構。
編碼器會以預先填入容量運作,處理初始提示並生成 KV 快取。接著,解碼器會運用雙向注意力處理詞元的輸入區塊 (「畫布」),並透過交叉注意力存取快取內容。
在推論期間,DiffusionGemma 會運用多畫布取樣。模型不會一次生成一個符記,而是使用擴散取樣器,反覆對一整組符記進行去噪處理。畫布完全去噪後,會由編碼器處理並附加至 KV 快取,模型接著會生成下一個畫布。這種區塊自迴歸方法可加快文字生成速度。
DiffusionGemma
| 參數總數 | 252 億 | | 有效參數 | 38 億 | | 層數 | 30 | | 滑動視窗 | 1024 個權杖 | | 脈絡長度 | 最多 25.6 萬個權杖 | | 畫布長度 | 256 | | 詞彙大小 | 26.2 萬 | | 專家數量 | 8 個有效專家 / 128 個專家總數和 1 個共用專家 | | 支援的模態 | 文字、圖片 | | 視覺編碼器參數 | 約 5.5 億 |
基準測試結果
我們使用大量不同的資料集和指標評估這些模型,涵蓋文字生成的各個層面。下表標示的評估結果適用於指令調整模型,並使用建議的 Entropy Bound (EB) 採樣器 (請參閱下方的最佳做法)。
| 基準 | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 no tools | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA Diamond | 73.2% | 82.3% |
| Tau2 (平均值,超過 3) | 56.2% | 68.2% |
| HLE no tools | 11.0% | 8.7% |
| HLE with search | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| 視覺輔助 | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (平均編輯距離,越低越好) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| 長篇脈絡資訊 | ||
| MRCR v2 8 針 128k (平均) | 32.0% | 44.1% |
核心功能
DiffusionGemma 可處理文字和視覺領域的各種工作,主要功能包括:
- 高速生成 - 透過擴散取樣平行去噪 256 個詞元,每次正向傳遞生成 15 到 20 個詞元,在低批量大小設定 (H100、FP8) 中,每位使用者每秒可生成超過 1100 個詞元,實現低延遲。
- 適應性推論時間運算:簡單的提示和結構化工作 (例如程式碼) 需要較少的去噪步驟,因此可根據工作複雜度動態調整每秒符記數。
- 思考:內建的推論模式,可讓模型在回答前逐步思考。
- 長篇脈絡資訊:脈絡窗口最多可達 25.6 萬個權杖。
- 圖像理解:物件偵測、文件/PDF 剖析、螢幕和 UI 理解、圖表解讀、光學字元辨識 (包括多種語言)、手寫辨識和指向。圖片可依不同長寬比和解析度處理。
- 影片理解:處理連續影格,分析並描述影片內容。
- 交錯式多模態輸入:在單一提示中混合使用圖片、影片和文字,進行需要大量背景資訊的推理。
- 函式呼叫:原生支援結構化工具使用,可啟用代理工作流程。
- 程式設計和推論:可生成及補全程式碼,並逐步進行邏輯推論。
- 支援多種語言:開箱即支援超過 35 種語言,並以超過 140 種語言預先訓練。
最佳做法
如要獲得最佳成效,請採用下列設定和最佳做法:
1. 擴散取樣設定
在所有用途中,使用下列標準化取樣設定:
- 方法:使用熵界定去噪和自適應停止的擴散取樣。
- 取樣設定:
- 雜訊去除步數上限 = 48
- 溫控時間表 (適用於對數機率調整):從 0.8 → 0.4 的線性衰減
- 符記選取:在每個步驟中,取樣器會選取最低熵的符記,讓互資訊界限保持在熵界限 = 0.1 以下
- 權杖重新產生雜訊:取樣器會完全重新產生未選取權杖的雜訊
- 自動停止:只有在同時符合下列兩個條件時,取樣才會提早終止:
- 預測結果可信度高:畫布的平均模型熵低於熵閾值 = 0.005
- 穩定預測:在連續兩個去噪步驟中,最高機率的符記預測結果保持不變
2. 思考模式設定
與 Gemma 4 模型類似,我們使用標準的 system、assistant 和 user 角色。如要妥善管理思考過程,請使用下列控制權杖:
- 觸發思考:在系統提示開頭加入
<|think|>權杖,即可啟用思考功能。如要停用思考功能,請移除該權杖 (請注意,系統可能仍會發出空白的思考管道)。 - 標準生成:啟用思考功能後,模型會輸出內部推論,然後使用以下結構提供最終答案:
<|channel>thought\n[內部推論]<channel|>。 - 停用思考行為:如果停用思考行為,模型仍會生成標記,但思考區塊會是空白:
<|channel>thought\n<channel|>[Final answer]。
請注意,許多程式庫 (例如 Transformers) 會為您處理聊天範本的複雜性。
3. 多輪對話
- 記錄中沒有思考內容:在多輪對話中,歷史模型輸出內容應只包含最終回覆。在下一個使用者輪次開始前,不得加入先前模型輪次的思考內容。
4. 模態順序
- 如要透過多模態輸入獲得最佳效能,請在提示詞中將圖片內容放在文字之前。
5. 可變圖片解析度
除了可變的長寬比,DiffusionGemma 也支援可變的圖片解析度,方法是透過可設定的視覺化權杖預算,控管用於表示圖片的權杖數量。權杖預算越高,保留的視覺細節就越多,但會增加額外的運算量;預算越低,推論速度就越快,適合不需要細緻理解的任務。
- 支援的權杖預算為:70、140、280、560 和 1120。
- 對於分類、字幕或影片理解等工作,可使用較低的預算,因為這類工作著重於快速推論和處理大量影格,而非細微的細節。
- 針對 OCR、文件剖析或讀取小字等工作,使用較高的預算。
6. 影片長度
所有模型都支援輸入圖片,並可將影片處理為影格。假設每秒處理一個影格,影片長度上限為 60 秒。
模型資料
用於模型訓練的資料,以及資料的處理方式。
訓練資料集
我們的預先訓練資料集是涵蓋各種領域和模態的大規模多元資料集合,包括網頁文件、程式碼、圖片和音訊,資料截止日期為 2025 年 1 月。以下是主要元件:
- 網頁文件:多樣化的網頁文字可確保模型接觸到各種語言風格、主題和詞彙。訓練資料集包含超過 140 種語言的內容。
- 程式碼:讓模型接觸程式碼,有助於學習程式設計語言的語法和模式,進而提升生成程式碼和理解程式碼相關問題的能力。
- 數學:訓練模型處理數學文字,有助於學習邏輯推論、符號表示法,以及回答數學查詢。
- 圖片:大量圖片可讓模型執行圖像分析和擷取視覺資料等工作。
結合這些多元資料來源,對於訓練強大的多模態模型至關重要,因為這類模型可處理各種不同的工作和資料格式。
資料預先處理
以下是套用至訓練資料的主要資料清理和篩選方法:
- 兒少性虐待內容篩選:在資料準備過程的多個階段,我們都嚴格篩選兒少性虐待內容,確保排除有害和違法內容。
- 私密資料篩除:為確保 Gemma 預先訓練模型安全可靠,我們使用自動化技術,從訓練集中篩除特定個人資訊和其他私密資料。
- 其他方法:根據內容品質和安全性進行篩選,確保符合我們的政策。
倫理與安全
隨著開放模型成為企業基礎架構的核心,出處和安全性至關重要。DiffusionGemma 由 Google DeepMind 開發,與專屬 Gemini 模型一樣,經過嚴格的安全評估。
評估方法
DiffusionGemma 是與內部安全和負責任的 AI 團隊合作開發,並經過一系列自動化和人工評估,以提升模型安全性。這些評估符合 Google 的 AI 原則和安全政策,旨在防止生成式 AI 模型產生有害內容,包括:
- 兒少性虐待內容和剝削行為相關內容
- 危險內容 (例如宣揚自殺,或指示可能造成實際危害的活動)
- 情色露骨內容
- 仇恨言論 (例如:貶抑受保護團體的成員)
- 騷擾 (例如鼓吹對他人施暴)
評估結果
在所有安全測試領域,相較於前幾代的 Gemma 模型,DiffusionGemma 在所有內容安全類別中都有大幅進步。整體而言,DiffusionGemma 與 Gemma 4 模型一樣,在提升安全防護方面明顯優於 Gemma 3 和 3n 模型,同時將不合理的拒絕次數維持在低點。所有測試都是刻意在沒有安全篩選器的情況下進行,以評估模型的原始功能和基準行為。無論是文字轉文字和圖像轉文字,以及所有模型大小,模型產生的違規內容都極少,且相較於先前的 Gemma 模型,有顯著進步。
使用方式和限制
這些模型有某些限制,使用者應留意。
預定用途
多模態模型 (可處理視覺、語言和/或音訊) 適用於各行各業和領域,以下列出的潛在用途僅為範例。這份清單的目的是提供模型建立者在模型訓練和開發期間考量的可能用途,以供參考。
- 內容製作與溝通
- 生成文字:生成各種格式的創意文字內容,例如詩詞、劇本、程式碼、行銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客服、虛擬助理或互動式應用程式提供對話式介面。
- 文字摘要:生成文字語料庫、研究論文或報告的精簡摘要。
- 圖片資料擷取:擷取、解讀及摘要說明文字通訊中的視覺資料。
- 研究與教育
- 自然語言處理 (NLP) 和 VLM 研究:為研究人員提供基礎,讓他們能實驗 VLM 和 NLP 技術、開發演算法,並為這個領域的進展做出貢獻。
- 語言學習工具:支援互動式語言學習體驗,協助修正文法或提供寫作練習。
- 知識探索:協助研究人員探索大量文字,方法是生成摘要或回答特定主題的問題。
限制
- 訓練資料
- 訓練資料的品質和多樣性會大幅影響模型的能力。訓練資料中的偏誤或缺漏可能會導致模型回覆內容受到限制。
- 訓練資料集的範圍決定了模型可有效處理的主題領域。
- 背景資訊和工作複雜度
- 如果能以明確的提示和指令架構任務,模型就能順利完成。但如果是開放式或高度複雜的任務,模型可能難以應付。
- 模型效能可能會受到提供的背景資訊量影響 (背景資訊越長,通常輸出內容越好,但有上限)。
- 語言的模糊和細微差異
- 自然語言本就複雜,模型可能難以掌握細微的語氣、諷刺或比喻。
- 事實準確度
- 模型會根據從訓練資料集學到的資訊生成回覆,但這些資料集並非知識庫,因此模型可能會生成不正確或過時的事實陳述。
- 常識
- 模型會根據語言的統計模式運作,在某些情況下,可能無法運用常識推論。
倫理考量和風險
在建立開放式視覺語言模型時,我們仔細考量了下列事項:
- 偏誤和公平性
- 以大規模真實世界文字和圖片資料訓練的 VLM,可能會反映訓練資料中內含的社會文化偏誤。如本資訊卡所述,DiffusionGemma 經過仔細審查、輸入資料前處理和訓練後評估,有助於降低這些偏見的風險。
- 不實資訊和濫用行為
- VLMs 可能遭到濫用,生成不實、誤導性或有害的文字。
- 我們提供負責任使用模型的相關指南,請參閱「負責任的生成式 AI 工具包」。
- 資訊公開與當責
- 這張模型資訊卡會摘要說明模型的架構、功能、限制和評估程序。
- 以負責任的方式開發開放模型,可讓 AI 生態系統的開發人員和研究人員使用 VLM 技術,進而分享創新成果。
已識別的風險和因應措施:
- 生成有害內容:內容安全機制和規範至關重要。建議開發人員根據特定產品政策和應用程式用途,謹慎實施適當的內容安全防護措施。
- 用於惡意目的:技術限制、開發人員和使用者教育訓練,有助於防範惡意使用 VLM。我們提供教育資源和回報機制,方便使用者檢舉濫用行為。
- 隱私權違規:模型訓練資料經過篩選,已移除特定個人資訊和其他私密資料。建議開發人員採用隱私權保護技術,遵守隱私權法規。
- 偏見延續:建議在模型訓練、微調和其他用途期間,持續監控 (使用評估指標、專人審查) 並探索去偏見技術。
優點
發布時,這款模型是低延遲、高效能的開放式視覺語言模型,為開發人員和對擴散語言模型研究感興趣的使用者提供絕佳選擇。與大小相近的模型相比,這款模型從頭開始設計,可確保負責任的 AI 技術開發。