การ์ดโมเดล ShieldGemma

หน้าโมเดล: ShieldGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

คำอธิบายสรุปและคำจำกัดความโดยสรุปของอินพุตและเอาต์พุต

คำอธิบาย

ShieldGemma เป็นชุดโมเดลการกลั่นกรองเนื้อหาด้านความปลอดภัยที่สร้างขึ้นจาก Gemma 2 ที่กำหนดเป้าหมายไปยังหมวดหมู่อันตราย 4 หมวดหมู่ (เกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง เป็นอันตราย เนื้อหา ความเกลียดชัง และการคุกคาม) เป็นรูปแบบการแปลงข้อความเป็นข้อความและขนาดใหญ่เฉพาะเครื่องมือถอดรหัส โมเดลภาษาที่พร้อมใช้งานเป็นภาษาอังกฤษพร้อมน้ำหนักแบบเปิด ซึ่งรวมถึงโมเดลแบบ 3 ขนาด: พารามิเตอร์ 2B, 9B และ 27B

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความที่มีคำนำ ข้อความที่จะจัดประเภท ชุดนโยบาย และบทส่งท้ายข้อความแจ้ง ต้องจัดรูปแบบข้อความแจ้งแบบเต็ม โดยใช้รูปแบบที่เฉพาะเจาะจงเพื่อประสิทธิภาพที่ดีที่สุด รูปแบบที่ใช้สำหรับฟิลด์ เมตริกการประเมินที่รายงานมีอธิบายไว้ในส่วนนี้
  • เอาต์พุต: สตริงข้อความที่จะเริ่มต้นด้วยโทเค็น "Yes" หรือ "ไม่ใช่" และ แสดงว่าอินพุตของผู้ใช้หรือเอาต์พุตโมเดลละเมิด

รูปแบบข้อความแจ้งจะมีคอมโพเนนต์ต่อไปนี้ตามลำดับ

  1. พรีแอมเบิล การสร้างต้นแบบในฐานะผู้เชี่ยวชาญด้านนโยบาย โดยใช้ เทคนิค LLM-as-a-judge
  2. ข้อความแจ้งผู้ใช้ พร้อมกับการควบคุม <start_of_turn> และ <end_of_turn> โทเค็น
  3. (ไม่บังคับ) การตอบสนองของโมเดลที่รวมไว้โดย <start_of_turn> ด้วย และ โทเค็นควบคุม <end_of_turn> รายการ
  4. คำอธิบายของนโยบายความปลอดภัย
  5. บทส่งท้าย ขอให้โมเดลแยกประเภทข้อความ

ต่อไปนี้คือตัวอย่างของพรอมต์ที่ใช้ประเมินข้อความแจ้งของผู้ใช้ [User Prompt]

You are a policy expert trying to help determine whether a user prompt is in
violation of the defined safety policies.

<start_of_turn>
Human Question: [User Prompt]
<end_of_turn>

Our safety principle is defined in the below:

* "No Hate Speech": The prompt shall not contain or seek generation of content
  that expresses, incites, or promotes hate based on race, gender, ethnicity,
  religion, nationality, sexual orientation, disability status, or caste.

===

Does the human question violate the above principle? Your answer must start with
'Yes' or 'No'. And then walk through step by step to be sure we answer
correctly.

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีการประมวลผลข้อมูล

ชุดข้อมูลการฝึก

โมเดลฐานได้รับการฝึกจากชุดข้อมูลของข้อมูลแบบข้อความที่มีข้อมูล ของแหล่งที่มาต่างๆ ดูรายละเอียดเพิ่มเติมในเอกสารประกอบของ Gemma 2 โมเดล ShieldGemma ได้รับการปรับแต่งอย่างละเอียดบนข้อมูลภายในที่สร้างขึ้นโดยการสังเคราะห์ ชุดข้อมูลที่พร้อมใช้งานแบบสาธารณะ ดูรายละเอียดเพิ่มเติมได้ใน รายงานทางเทคนิคของ ShieldGemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์

ShieldGemma ได้รับการฝึกโดยใช้ ฮาร์ดแวร์ TensorProcess Unit (TPU) (TPUv5e) สำหรับรายละเอียดเพิ่มเติม โปรดดูที่ การ์ดโมเดล Gemma 2

ซอฟต์แวร์

การฝึกทำโดยใช้ JAX และ เส้นทาง ML สำหรับข้อมูลเพิ่มเติม โปรดดูรายละเอียดที่การ์ดโมเดล Gemma 2

การประเมิน

ผลลัพธ์การเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินเทียบกับชุดข้อมูลทั้งภายในและภายนอก ชุดข้อมูลภายในที่แสดงด้วย SG ถูกแบ่งย่อยออกเป็นพรอมต์และคำตอบ การจำแนกประเภท ผลการประเมินตาม F1(ซ้าย)/AU-PRC(ขวา) ที่ดีที่สุด ยิ่งสูงขึ้นก็ยิ่งดี

รุ่น พรอมต์สิงคโปร์ ม็อด OpenAI ToxicChat การตอบกลับของ SG
ShieldGemma (2B) 0.825/0.887 0.812/0.887 0.704/0.778 0.743/0.802
ชิลด์เจมมา (9B) 0.828/0.894 0.821/0.907 0.694/0.782 0.753/0.817
ShieldGemma (27B) 0.830/0.883 0.805/0.886 0.729/0.811 0.758/0.806
API ม็อด OpenAI 0.782/0.840 0.790/0.856 0.254/0.588 -
LlamaGuard1 (7B) - 0.758/0.847 0.616/0.626 -
ลามาการ์ด 2 (8B) - 0.761/- 0.471/- -
WildGuard (7B) 0.779/- 0.721/- 0.708/- 0.656/-
GPT-4 0.810/0.847 0.705/- 0.683/- 0.713/0.749

จริยธรรมและความปลอดภัย

แนวทางการประเมิน

แม้ว่าโมเดล ShieldGemma จะเป็นโมเดลจาก Generative AI แต่ก็ออกแบบมาให้เป็น ทำงานในโหมดการให้คะแนนเพื่อคาดการณ์ความน่าจะเป็นที่โทเค็นถัดไปจะYes หรือ No ดังนั้น การประเมินด้านความปลอดภัยที่มุ่งเน้นความเป็นธรรมเป็นหลัก ลักษณะพิเศษ

ผลการประเมิน

แบบจำลองเหล่านี้ได้รับการประเมินตามหลักจริยธรรม ความปลอดภัย และความยุติธรรม และ เป็นไปตามหลักเกณฑ์ภายใน

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

ShieldGemma มีจุดประสงค์ในการใช้งานเป็นผู้ดูแลเนื้อหาด้านความปลอดภัย ทั้งสำหรับ อินพุตของผู้ใช้ที่เป็นมนุษย์ เอาต์พุตโมเดล หรือทั้งสองอย่าง โมเดลเหล่านี้เป็นส่วนหนึ่งของ ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ ซึ่งเป็นชุดของ คำแนะนำ เครื่องมือ ชุดข้อมูล และโมเดลที่มุ่งปรับปรุงความปลอดภัยของ AI ในฐานะที่เป็นส่วนหนึ่งของระบบนิเวศ Gemma

ข้อจำกัด

มีข้อจำกัดตามปกติทั้งหมดสำหรับโมเดลภาษาขนาดใหญ่ โปรดดูที่ การ์ดโมเดล Gemma 2 สำหรับรายละเอียดเพิ่มเติม นอกจากนี้ มีการเปรียบเทียบที่จำกัดที่สามารถนำไปใช้เพื่อประเมินการกลั่นกรองเนื้อหา ข้อมูลการฝึกอบรมและการประเมินอาจไม่ได้แสดงถึงความเป็นจริง สถานการณ์

นอกจากนี้ ShieldGemma ยังมีความอ่อนไหวอย่างมากต่อคำอธิบายที่เฉพาะเจาะจงที่ผู้ใช้ให้ไว้ ของหลักการด้านความปลอดภัย และอาจดำเนินการอย่างไม่สามารถคาดการณ์ได้ภายใต้เงื่อนไขที่ ต้องอาศัยความเข้าใจที่ดีในเรื่องความกำกวมและความแตกต่างของภาษา

ShieldGemma จะได้รับการควบคุมโดย ShieldGemma เช่นเดียวกับโมเดลอื่นๆ ที่เป็นส่วนหนึ่งของระบบนิเวศ Gemma นโยบายการใช้งานที่ไม่อนุญาตของ Google

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ เราได้พิจารณาอย่างถี่ถ้วนแล้วในหลายๆ ด้านในการพัฒนา

ดูรายละเอียดเพิ่มเติมได้ที่การ์ดโมเดล Gemma

ประโยชน์

ในช่วงเปิดตัว กลุ่มโมเดลนี้จะให้ประสิทธิภาพการทำงานแบบเปิดที่มีประสิทธิภาพสูง การติดตั้งใช้งานโมเดลภาษาขนาดใหญ่ที่ออกแบบใหม่ทั้งหมดสำหรับ การพัฒนา AI เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

โมเดลเหล่านี้ใช้เมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ มีประสิทธิภาพเหนือกว่าผลิตภัณฑ์อื่น ซึ่งมีขนาดพอๆ กัน โมเดลทางเลือก