模型頁面:ShieldGemma
資源和技術文件:
使用條款:條款
作者:Google
型號資訊
ShieldGemma 2 是使用 Gemma 3 的 4B IT 檢查點訓練的模型,可針對圖片安全性進行分類,並依政策輸出安全性標籤。
說明
以 Gemma 3 為基礎建構的 ShieldGemma 2 是個 40 億 (40 億) 參數模型,可針對主要類別檢查合成和自然圖片的安全性,協助您建立可靠的資料集和模型。在 Gemma 系列模型中加入這項功能後,研究人員和開發人員現在可以盡量降低有害內容影響其生成式 AI 應用程式的風險,並涵蓋主要的有害類型。
建議您將 ShieldGemma 2 用於視覺語言模型的輸入濾鏡,或用於圖像生成系統的輸出濾鏡。為了訓練可靠的圖像安全模型,我們精選了自然和合成圖像的訓練資料集,並透過指令調整 Gemma 3 來展現強大效能。我們將安全政策與不同基準進行比較,並發布包含第三方基準的技術報告。
輸入和輸出
- 輸入內容:含有政策定義的圖片和提示操作說明。
- 輸出內容:「是」或「否」符號的機率。如果「Yes」符記的分數較高,表示模型確信內容違反了所包含的政策。反之,如果是「No」符記,則為 true。這兩項分數都會提供,以便啟用分類指標和校正功能。
提示中使用的規範
以下是提示操作說明 [Prompt Instruction]
:
You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.
<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>
Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.
用途:圖片分類
危害類型 | 規範 |
---|---|
情色露骨內容 | 「不得含有情色露骨內容」:圖片不得含有情色露骨或煽情露骨的性行為 (例如色情內容、情色裸露、強姦或性侵犯情節)。 |
危險內容 | 「禁止危險內容」:圖片不得包含可能造成實際危害的活動 (例如製造槍械和爆裂物、宣揚恐怖主義、自殺教學) 的鼓吹或鼓勵內容。 |
暴力內容 | 「禁止暴力/血腥內容」:圖片不得包含令人震驚、聳動或毫無意義的暴力內容 (例如過多的血腥畫面、對動物施加毫無意義的暴力、極端的受傷畫面或死亡畫面)。 |
引用內容
@article{shieldgemma2,
title={ShieldGemma 2},
url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
author={ShieldGemma Team},
year={2025}
}
模型資料
用於模型訓練的資料,以及資料的處理方式。
訓練資料集
我們的訓練資料集包含自然圖像和合成圖像。針對自然圖像,我們會從 WebLI (Web Language and Image) 資料集中,選取與安全性工作相關的圖片子集。針對合成圖片,我們會使用內部資料產生管道,控管提示和相應圖片的產生作業,以平衡圖片的多樣性和嚴重程度。在本研究中,我們只將危害類型限制在危險、情色露骨和暴力內容,且僅限英文。我們使用與各項政策相對應的分類,以及一系列的受眾特徵、背景資訊和區域層面,為其他對立主題和子主題建立結構。
資料預先處理
以下是套用於訓練資料的關鍵資料清理和篩選方法:兒少性虐待內容篩選:在資料準備程序中套用兒少性虐待內容 (CSAM) 篩選功能,確保排除違法內容。
實作資訊
硬體
ShieldGemma 2 是使用最新一代的 Tensor Processing Unit (TPU) 硬體 (TPUv5e) 進行訓練,詳情請參閱 Gemma 3 模型資訊卡。
軟體
訓練作業是使用 JAX 和 ML Pathways 完成。詳情請參閱 Gemma 3 模型卡。
評估
基準測試結果
我們評估 ShieldGemma 2 4B 的表現,並與內部和外部資料集進行比較。我們的內部資料集是透過內部圖片資料收集管道合成產生。這個管道包含多個重要步驟,例如定義問題、產生安全分類、產生圖片查詢、產生圖片、分析屬性、驗證標籤品質等。每項有害內容政策約有 500 個示例。正面比率分別為 39%、67% 和 32%。我們也會發布技術報告,其中包含針對外部資料集的評估結果。
內部基準評估結果
型號 | 情色露骨內容 | 危險內容 | 暴力和血腥內容 |
---|---|---|---|
LlavaGuard 7B | 47.6/93.1/63.0 | 67.8/47.2/55.7 | 36.8/100.0/53.8 |
GPT-4o mini | 68.3/97.7/80.3 | 84.4/99.0/91.0 | 40.2/100.0/57.3 |
Gemma-3-4B-IT | 77.7/87.9/82.5 | 75.9/94.5/84.2 | 78.2/82.2/80.1 |
ShieldGemma-2-Image-4B | 87.6/89.7/88.6 | 95.6/91.9/93.7 | 80.3/90.4/85.0 |
道德與安全
評估方法
雖然 ShieldGemma 模型是生成式模型,但它們是設計用於評分模式,可預測下一個符記會 Yes
或 No
的機率。因此,安全性評估主要著重於輸出有效的圖片安全性標籤。
評估結果
這些模型經過倫理、安全性和公平性考量評估,且符合內部規範。與基準比較時,評估資料集會根據不同的分類法進行疊代並取得平衡。我們也為圖片安全標籤加上人工標籤,並檢查模型未偵測到的用途,以便在評估過程中持續改善。
使用方式和限制
這些模型有特定限制,使用者應注意。
預定用途
ShieldGemma 2 的用途是用來審核安全內容,無論是使用者輸入內容、模型輸出內容,或是兩者皆是,皆可使用這項工具。這些模型是負責任的生成式 AI 工具包的一部分,該工具包是一套建議、工具、資料集和模型,旨在改善 Gemma 生態系統中 AI 應用程式的安全性。
限制
適用所有大型語言模型的一般限制,詳情請參閱 Gemma 3 模型資訊卡。此外,可用於評估內容審核的基準有限,因此訓練和評估資料可能無法代表實際情況。
ShieldGemma 2 也非常重視使用者提供的安全性原則說明,在需要充分理解語言模糊和細微差異的情況下,可能會出現無法預測的行為。
與 Gemma 生態系統中的其他模型一樣,ShieldGemma 也須遵守 Google 的使用限制政策。
倫理考量和風險
開發大型語言模型 (LLM) 時,會產生一些倫理問題。我們在開發這些模型時,已仔細考量多項因素。
詳情請參閱 Gemma 3 模型資訊卡。
優點
在發布時,這一系列模型提供高效能的開放式大型語言模型實作項目,與同樣大小的模型相比,這些模型是專為負責任的 AI 開發而設計。
根據本文件所述的基準評估指標,這些模型的效能優於其他相近大小的開放式模型替代方案。