Thẻ mô hình ShieldGemma

Trang mô hình: ShieldGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

ShieldGemma 2 là một mô hình được huấn luyện trên điểm kiểm tra công nghệ thông tin 4B của Gemma 3 để phân loại mức độ an toàn của hình ảnh theo các danh mục chính, trong đó nhận hình ảnh và xuất nhãn an toàn theo từng chính sách.

Mô tả

ShieldGemma 2, được xây dựng trên Gemma 3, là một mô hình có 4 tỷ (4B) tham số giúp kiểm tra độ an toàn của cả hình ảnh tổng hợp và hình ảnh tự nhiên theo các danh mục chính để giúp bạn xây dựng các tập dữ liệu và mô hình mạnh mẽ. Với việc bổ sung này cho gia đình mô hình Gemma, các nhà nghiên cứu và nhà phát triển hiện có thể giảm thiểu nguy cơ nội dung gây hại ảnh hưởng đến các ứng dụng sử dụng AI tạo sinh của họ trên các loại tác hại chính.

Bạn nên sử dụng ShieldGemma 2 làm bộ lọc đầu vào cho các mô hình ngôn ngữ thị giác hoặc làm bộ lọc đầu ra của các hệ thống tạo hình ảnh. Để huấn luyện một mô hình an toàn hình ảnh mạnh mẽ, chúng tôi đã tuyển chọn các tập dữ liệu huấn luyện gồm hình ảnh tự nhiên và tổng hợp, cũng như Gemma 3 được điều chỉnh theo hướng dẫn để thể hiện hiệu suất mạnh mẽ. Chúng tôi đã so sánh các chính sách về an toàn với nhiều điểm chuẩn và sẽ phát hành một báo cáo kỹ thuật kết hợp các điểm chuẩn của bên thứ ba.

Đầu vào và đầu ra

  • Dữ liệu đầu vào: Hình ảnh và hướng dẫn nhanh có định nghĩa về chính sách.
  • Kết quả: Xác suất của mã thông báo "Có" hoặc "Không". Điểm số cao hơn cho mã thông báo "Có" cho biết mô hình tự tin rằng nội dung đó vi phạm chính sách được đưa vào. Điều ngược lại đúng với mã thông báo "Không". Cả hai điểm số này đều được cung cấp để bật các chỉ số phân loại và hiệu chuẩn.

Nguyên tắc sử dụng trong câu lệnh

Dưới đây là hướng dẫn về câu lệnh [Prompt Instruction]:

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Trường hợp sử dụng: Phân loại hình ảnh

Loại tác hại Đường căn
Nội dung khiêu dâm "Không chứa nội dung khiêu dâm": Hình ảnh không được chứa nội dung mô tả các hoạt động tình dục phản cảm hoặc phản cảm (ví dụ: nội dung khiêu dâm, nội dung tình dục khiêu dâm, ảnh khoả thân, nội dung mô tả hành vi hiếp dâm hoặc tấn công tình dục).
Nội dung nguy hiểm "Không có nội dung nguy hiểm": Hình ảnh không được chứa nội dung tạo điều kiện hoặc khuyến khích các hoạt động có thể gây hại ngoài đời thực (ví dụ: cách chế tạo súng và thiết bị nổ, cổ xuý khủng bố, hướng dẫn tự tử).
Nội dung bạo lực "Không có nội dung bạo lực/đẫm máu": Hình ảnh không được chứa nội dung mô tả hành vi bạo lực gây sốc, giật gân hoặc vô cớ (ví dụ: máu và cảnh đẫm máu quá mức, hành vi bạo lực vô cớ đối với động vật, thương tích nghiêm trọng hoặc khoảnh khắc chết chóc).

Trích dẫn

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Tập dữ liệu huấn luyện của chúng tôi bao gồm cả hình ảnh tự nhiên và hình ảnh tổng hợp. Đối với hình ảnh tự nhiên, chúng tôi lấy mẫu một tập hợp con hình ảnh từ tập dữ liệu WebLI (Ngôn ngữ và hình ảnh trên web) có liên quan đến các nhiệm vụ an toàn. Đối với hình ảnh tổng hợp, chúng tôi sử dụng quy trình tạo dữ liệu nội bộ để tạo các câu lệnh và hình ảnh tương ứng một cách có kiểm soát, giúp cân bằng sự đa dạng và mức độ nghiêm trọng của hình ảnh. Đối với nghiên cứu này, các loại nội dung gây hại chỉ giới hạn ở nội dung nguy hiểm, khiêu dâm và bạo lực, chỉ bằng tiếng Anh. Các chủ đề phụ và chủ đề đối kháng bổ sung được cấu trúc bằng cách sử dụng một hệ thống phân loại tương ứng với các chính sách tương ứng, cũng như một loạt các khía cạnh nhân khẩu học, bối cảnh và khu vực.

Xử lý trước dữ liệu

Dưới đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu đào tạo: Lọc nội dung xâm hại tình dục trẻ em: Phương thức lọc nội dung xâm hại tình dục trẻ em (CSAM) được áp dụng trong quy trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung bất hợp pháp.

Thông tin triển khai

Phần cứng

ShieldGemma 2 được huấn luyện bằng phần cứng Bộ xử lý tensor (TPU) thế hệ mới nhất (TPUv5e). Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.

Phần mềm

Chúng tôi đã đào tạo bằng JAXLộ trình học máy. Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.

Đánh giá

Kết quả đo điểm chuẩn

ShieldGemma 2 4B được đánh giá dựa trên các tập dữ liệu nội bộ và bên ngoài. Tập dữ liệu nội bộ của chúng tôi được tạo tổng hợp thông qua quy trình tuyển chọn dữ liệu hình ảnh nội bộ. Quy trình này bao gồm các bước chính như xác định vấn đề, tạo hệ thống phân loại an toàn, tạo truy vấn hình ảnh, tạo hình ảnh, phân tích thuộc tính, xác thực chất lượng nhãn, v.v. Chúng tôi có khoảng 500 ví dụ cho mỗi chính sách về nội dung gây hại. Tỷ lệ nội dung tích cực lần lượt là 39%, 67% và 32% đối với nội dung tình dục, nội dung nguy hiểm và nội dung bạo lực. Chúng tôi cũng sẽ phát hành một báo cáo kỹ thuật bao gồm các đánh giá dựa trên các tập dữ liệu bên ngoài.

Kết quả đánh giá điểm chuẩn nội bộ

Mô hình Nội dung khiêu dâm Nội dung nguy hiểm Nội dung bạo lực và đẫm máu
LlavaGuard 7B 47,6/93,1/63,0 67,8/47,2/55,7 36,8/100,0/53,8
GPT-4o mini 68,3/97,7/80,3 84,4/99,0/91,0 40,2/100,0/57,3
Gemma-3-4B-IT 77,7/87,9/82,5 75,9/94,5/84,2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87,6/89,7/88,6 95,6/91,9/93,7 80,3/90,4/85,0

Đạo đức và an toàn

Phương pháp đánh giá

Mặc dù các mô hình ShieldGemma là mô hình tạo sinh, nhưng chúng được thiết kế để chạy ở chế độ tính điểm nhằm dự đoán xác suất mã thông báo tiếp theo là Yes hoặc No. Do đó, việc đánh giá mức độ an toàn chủ yếu tập trung vào việc đưa ra các nhãn an toàn hiệu quả cho hình ảnh.

Kết quả đánh giá

Các mô hình này đã được đánh giá về mặt đạo đức, sự an toàn và tính công bằng, đồng thời đáp ứng các nguyên tắc nội bộ. Khi so sánh với điểm chuẩn, các tập dữ liệu đánh giá được lặp lại và cân bằng với nhiều hệ thống phân loại. Nhãn an toàn cho hình ảnh cũng được nhân viên gắn nhãn và kiểm tra các trường hợp sử dụng mà mô hình không phát hiện được, cho phép chúng tôi cải thiện sau các vòng đánh giá.

Cách sử dụng và giới hạn

Người dùng cần lưu ý một số hạn chế nhất định của các mô hình này.

Mục đích sử dụng

ShieldGemma 2 được dùng làm công cụ kiểm duyệt nội dung an toàn, cho dữ liệu đầu vào của người dùng, dữ liệu đầu ra của mô hình hoặc cả hai. Các mô hình này là một phần của Bộ công cụ AI tạo sinh có trách nhiệm. Đây là một bộ đề xuất, công cụ, tập dữ liệu và mô hình nhằm cải thiện độ an toàn của các ứng dụng AI trong hệ sinh thái Gemma.

Các điểm hạn chế

Tất cả các giới hạn thông thường đối với mô hình ngôn ngữ lớn đều được áp dụng, hãy xem thẻ mô hình Gemma 3 để biết thêm thông tin chi tiết. Ngoài ra, có rất ít điểm chuẩn có thể dùng để đánh giá việc kiểm duyệt nội dung, vì vậy, dữ liệu huấn luyện và đánh giá có thể không phản ánh các tình huống thực tế.

ShieldGemma 2 cũng rất nhạy cảm với nội dung mô tả cụ thể do người dùng cung cấp về các nguyên tắc an toàn và có thể hoạt động không thể đoán trước trong những điều kiện đòi hỏi phải hiểu rõ sự mơ hồ và sắc thái của ngôn ngữ.

Giống như các mô hình khác thuộc hệ sinh thái Gemma, ShieldGemma phải tuân thủ chính sách về các hành vi bị cấm của Google.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển các mô hình ngôn ngữ lớn (LLM) làm nảy sinh một số mối lo ngại về mặt đạo đức. Chúng tôi đã cân nhắc kỹ lưỡng nhiều khía cạnh trong quá trình phát triển các mô hình này.

Hãy tham khảo thẻ mô hình Gemma 3 để biết thêm thông tin chi tiết.

Lợi ích

Tại thời điểm phát hành, gia đình mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ lớn, mở, hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã được chứng minh là mang lại hiệu suất vượt trội so với các mô hình mở có kích thước tương đương khác.