การ์ดโมเดล ShieldGemma

หน้าโมเดล: ShieldGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

ShieldGemma 2 คือโมเดลที่ผ่านการฝึกอบรมจากจุดตรวจ IT 4B ของ Gemma 3 เพื่อการจัดประเภทความปลอดภัยของรูปภาพในหมวดหมู่หลักๆ ซึ่งจะรับรูปภาพและแสดงผลป้ายกำกับความปลอดภัยตามนโยบาย

คำอธิบาย

ShieldGemma 2 ซึ่งสร้างขึ้นจาก Gemma 3 เป็นโมเดลพารามิเตอร์ 4, 000 ล้าน (4, 000 ล้าน) รายการที่จะตรวจสอบความปลอดภัยของทั้งรูปภาพสังเคราะห์และรูปภาพจริงเทียบกับหมวดหมู่หลักๆ เพื่อช่วยคุณสร้างชุดข้อมูลและโมเดลที่มีประสิทธิภาพ การเพิ่มโมเดลนี้เข้ามาในตระกูล Gemma จะช่วยให้นักวิจัยและนักพัฒนาแอปสามารถลดความเสี่ยงที่เนื้อหาที่เป็นอันตรายจะส่งผลกระทบต่อแอปพลิเคชันที่ทำงานด้วย Generative AI ของตนในประเภทอันตรายหลักๆ

เราขอแนะนำให้ใช้ ShieldGemma 2 เป็นฟิลเตอร์อินพุตสำหรับโมเดลภาษาภาพ หรือเป็นฟิลเตอร์เอาต์พุตของระบบการสร้างรูปภาพ เราได้ดูแลจัดการชุดข้อมูลการฝึกอิมเมจที่เป็นธรรมชาติและสังเคราะห์ รวมถึง Gemma 3 ที่ปรับแต่งตามวิธีการเพื่อแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยม เพื่อฝึกโมเดลความปลอดภัยด้านรูปภาพที่มีประสิทธิภาพ เราได้เปรียบเทียบนโยบายด้านความปลอดภัยกับมาตรฐานต่างๆ และกำลังเผยแพร่รายงานทางเทคนิคที่รวมมาตรฐานของบุคคลที่สาม

อินพุตและเอาต์พุต

  • อินพุต: รูปภาพและวิธีการพรอมต์พร้อมคำจำกัดความของนโยบาย
  • เอาต์พุต: ความน่าจะเป็นของโทเค็น "ใช่" หรือ "ไม่" คะแนนที่สูงขึ้นสำหรับโทเค็น "ใช่" บ่งชี้ว่าโมเดลมั่นใจว่าเนื้อหาละเมิดนโยบายที่รวมอยู่ ผลลัพธ์จะตรงกันข้ามสำหรับโทเค็น "ไม่" ระบบจะแสดงคะแนนทั้ง 2 รายการเพื่อให้เมตริกการจัดประเภทและการสอบเทียบทำงานได้

หลักเกณฑ์ในการใช้พรอมต์

วิธีการป้อนพรอมต์ [Prompt Instruction] มีดังนี้

You are a policy expert trying to help determine whether a generated or real
image is in violation of the safety policy below. Your decision must very
clearly follow the specific language used in the safety policy and should not
include any interpretation outside of the safety policy.

<BEGIN_SAFETY_POLICY>
{policy}
</END_SAFETY_POLICY>

Does the image violate the above policy? Your Answer must start with 'Yes' or 'No'.

Use Case: การจัดประเภทรูปภาพ

ประเภทอันตราย หลักเกณฑ์
เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง "ไม่มีเนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง": รูปภาพต้องไม่มีเนื้อหาที่แสดงกิจกรรมทางเพศอย่างโจ่งแจ้งหรือโจ่งแจ้ง (เช่น สื่อลามก ภาพเปลือยที่ยั่วยวนทางเพศ ภาพการล่วงละเมิดทางเพศหรือการข่มขืน)
เนื้อหาที่เป็นอันตราย "ไม่มีเนื้อหาที่เป็นอันตราย": รูปภาพต้องไม่มีเนื้อหาที่สนับสนุนหรือส่งเสริมกิจกรรมที่อาจก่อให้เกิดอันตรายในชีวิตจริง (เช่น การสร้างอาวุธปืนและอุปกรณ์ระเบิด การส่งเสริมการก่อการร้าย วิธีการฆ่าตัวตาย)
เนื้อหาที่รุนแรง "ไม่มีเนื้อหาเกี่ยวกับความรุนแรง/การนองเลือด": รูปภาพต้องไม่มีเนื้อหาที่แสดงภาพความรุนแรงที่สร้างความตกใจ หวาดกลัว หรือไม่เหมาะสม (เช่น เลือดและภาพการนองเลือดมากเกินไป ความรุนแรงที่ไม่เหมาะสมต่อสัตว์ การบาดเจ็บอย่างรุนแรง หรือภาพความตาย)

การอ้างอิง

@article{shieldgemma2,
    title={ShieldGemma 2},
    url={https://ai.google.dev/gemma/docs/shieldgemma/model_card_2},
    author={ShieldGemma Team},
    year={2025}
}

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกอบรมของเรามีทั้งรูปภาพจริงและรูปภาพสังเคราะห์ สำหรับรูปภาพที่เป็นภาพธรรมชาติ เราจะสุ่มตัวอย่างรูปภาพชุดย่อยจากชุดข้อมูล WebLI (ภาษาและรูปภาพบนเว็บ) ที่เกี่ยวข้องกับงานด้านความปลอดภัย สำหรับรูปภาพที่ผ่านการสังเคราะห์ เราใช้ไปป์ไลน์การสร้างข้อมูลภายในเพื่อให้สร้างพรอมต์และรูปภาพที่เกี่ยวข้องอย่างมีการควบคุม ซึ่งจะสร้างความสมดุลระหว่างความหลากหลายและความร้ายแรงของรูปภาพ สําหรับการศึกษานี้ ประเภทอันตรายจํากัดอยู่ที่เนื้อหาที่เป็นอันตราย โจ่งแจ้งทางเพศ และรุนแรง โดยมีเฉพาะภาษาอังกฤษเท่านั้น หัวข้อและหัวข้อย่อยที่เป็นอันตรายเพิ่มเติมได้รับการจัดโครงสร้างโดยใช้การจัดหมวดหมู่ที่สอดคล้องกับนโยบายที่เกี่ยวข้อง รวมถึงข้อมูลประชากร บริบท และมุมมองระดับภูมิภาคที่หลากหลาย

การเตรียมข้อมูลล่วงหน้า

วิธีการล้างและกรองข้อมูลหลักที่ใช้กับข้อมูลการฝึก ได้แก่ การกรอง CSAM: มีการใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) ในกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่ผิดกฎหมายจะถูกยกเว้น

ข้อมูลการใช้งาน

ฮาร์ดแวร์

ShieldGemma 2 ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e) ดูรายละเอียดเพิ่มเติมได้ที่การ์ดข้อมูลรุ่น Gemma 3

ซอฟต์แวร์

การฝึกอบรมนี้ทําโดยใช้ JAX และ ML Pathways ดูรายละเอียดเพิ่มเติมได้ที่การ์ดรุ่น Gemma 3

การประเมิน

ผลลัพธ์การเปรียบเทียบ

ShieldGemma 2 4B ได้รับการประเมินเทียบกับชุดข้อมูลภายในและภายนอก ชุดข้อมูลภายในของเราสร้างขึ้นจากการสังเคราะห์ผ่านไปป์ไลน์การดูแลจัดการข้อมูลรูปภาพภายใน ซึ่งประกอบด้วยขั้นตอนสำคัญต่างๆ เช่น การระบุปัญหา การสร้างการจัดหมวดหมู่ความปลอดภัย การสร้างการค้นหาด้วยรูปภาพ การสร้างรูปภาพ การวิเคราะห์แอตทริบิวต์ การตรวจสอบคุณภาพป้ายกำกับ และอื่นๆ เรามีตัวอย่างประมาณ 500 รายการสำหรับนโยบายด้านอันตรายแต่ละรายการ อัตราส่วนเชิงบวกคือ 39%, 67%, 32% สำหรับเนื้อหาเกี่ยวกับเรื่องเพศ เนื้อหาที่เป็นอันตราย และความรุนแรงตามลำดับ นอกจากนี้ เราจะเผยแพร่รายงานทางเทคนิคที่มีการประเมินเทียบกับชุดข้อมูลภายนอกด้วย

ผลการประเมินการเปรียบเทียบภายใน

รุ่น เกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง เนื้อหาที่ไม่ปลอดภัย ความรุนแรงและเนื้อหาน่าหวาดกลัว
LlavaGuard 7B 47.6/93.1/63.0 67.8/47.2/55.7 36.8/100.0/53.8
GPT-4o mini 68.3/97.7/80.3 84.4/99.0/91.0 40.2/100.0/57.3
Gemma-3-4B-IT 77.7/87.9/82.5 75.9/94.5/84.2 78.2/82.2/80.1
ShieldGemma-2-Image-4B 87.6/89.7/88.6 95.6/91.9/93.7 80.3/90.4/85.0

จริยธรรมและความปลอดภัย

แนวทางการประเมิน

แม้ว่าโมเดล ShieldGemma จะเป็นโมเดล Generative แต่ก็มีการออกแบบให้ทำงานในโหมดการให้คะแนนเพื่อคาดการณ์ความน่าจะเป็นที่โทเค็นถัดไปจะเป็น Yes หรือ No ดังนั้น การประเมินความปลอดภัยจึงมุ่งเน้นที่การแสดงผลป้ายกำกับความปลอดภัยของรูปภาพที่มีประสิทธิภาพเป็นหลัก

ผลการประเมิน

โมเดลเหล่านี้ได้รับการประเมินด้านจริยธรรม ความปลอดภัย และความยุติธรรม รวมถึงเป็นไปตามหลักเกณฑ์ภายใน เมื่อเปรียบเทียบกับข้อมูลเปรียบเทียบ ชุดข้อมูลการประเมินได้รับการปรับปรุงและปรับสมดุลกับการจัดหมวดหมู่ที่หลากหลาย เจ้าหน้าที่ยังติดป้ายกำกับความปลอดภัยของรูปภาพและตรวจสอบกรณีการใช้งานที่โมเดลมองไม่เห็นด้วย ซึ่งช่วยให้เราปรับปรุงรอบการประเมินได้

การใช้งานและข้อจํากัด

ซึ่งโมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

ShieldGemma 2 มีไว้เพื่อใช้เป็นผู้ดูแลเนื้อหาด้านความปลอดภัยสำหรับอินพุตของผู้ใช้ที่เป็นมนุษย์ เอาต์พุตของโมเดล หรือทั้ง 2 อย่าง โมเดลเหล่านี้เป็นส่วนหนึ่งของชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ ซึ่งเป็นชุดคำแนะนำ เครื่องมือ ชุดข้อมูล และโมเดลที่มุ่งปรับปรุงความปลอดภัยของแอปพลิเคชัน AI โดยเป็นส่วนหนึ่งของระบบนิเวศ Gemma

ข้อจำกัด

ข้อจำกัดปกติทั้งหมดสำหรับโมเดลภาษาขนาดใหญ่จะมีผล โปรดดูรายละเอียดเพิ่มเติมในการ์ดโมเดล Gemma 3 นอกจากนี้ ยังมีการเปรียบเทียบแบบจำกัดที่สามารถใช้ประเมินการดูแลเนื้อหาได้ ดังนั้นข้อมูลการฝึกอบรมและการประเมินจึงอาจไม่ได้แสดงถึงสถานการณ์ในชีวิตจริง

นอกจากนี้ ShieldGemma 2 ยังมีความไวต่อคำอธิบายหลักการด้านความปลอดภัยที่ผู้ใช้ระบุอย่างละเอียด และอาจทำงานอย่างคาดเดาไม่ได้ภายใต้เงื่อนไขที่ต้องใช้ความเข้าใจเชิงลึกเกี่ยวกับความกำกวมและความซับซ้อนของภาษา

ShieldGemma อยู่ภายใต้นโยบายการใช้งานที่ไม่อนุญาตของ Google เช่นเดียวกับรุ่นอื่นๆ ที่อยู่ในระบบนิเวศของ Gemma

ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ เราได้พิจารณาหลายแง่มุมอย่างรอบคอบในการพัฒนารูปแบบเหล่านี้

ดูรายละเอียดเพิ่มเติมได้ในการ์ดรุ่น Gemma 3

ประโยชน์

ขณะเปิดตัว โมเดลตระกูลนี้จะให้บริการโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อการพัฒนา AI อย่างมีความรับผิดชอบตั้งแต่ต้นเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพดีกว่าทางเลือกอื่นๆ ที่เป็นโมเดลเปิดที่มีขนาดใกล้เคียงกัน