ภาพรวม
คู่มือนี้จะอธิบายการตั้งค่าความปลอดภัยที่ปรับได้ของ PaLM API สำหรับบริการข้อความ ในขั้นตอนการสร้างต้นแบบ คุณปรับการตั้งค่าความปลอดภัยในมิติข้อมูล 6 รายการเพื่อประเมินได้อย่างรวดเร็วว่าแอปพลิเคชันต้องมีการกำหนดค่าที่เข้มงวดมากกว่าหรือน้อยกว่า โดยค่าเริ่มต้น การตั้งค่าความปลอดภัยจะบล็อกเนื้อหาที่มีแนวโน้มปานกลางและ/หรือสูงว่าจะเป็นเนื้อหาที่ไม่ปลอดภัยในทั้ง 6 มิติข้อมูล ความปลอดภัยพื้นฐานนี้ออกแบบมาเพื่อใช้กับ Use Case ส่วนใหญ่ ดังนั้นคุณควรปรับการตั้งค่าความปลอดภัยเมื่อจำเป็นสำหรับแอปพลิเคชันของคุณอย่างต่อเนื่องเท่านั้น
ตัวกรองความปลอดภัย
นอกจากตัวกรองความปลอดภัยที่ปรับได้ PaLM API ยังมีการปกป้องในตัวจากอันตรายร้ายแรง เช่น เนื้อหาที่เป็นอันตรายต่อความปลอดภัยของเด็ก ประเภทของอันตรายเหล่านี้จะถูกบล็อกไว้เสมอและไม่สามารถปรับเปลี่ยนได้
ตัวกรองความปลอดภัยที่ปรับได้จะครอบคลุมหมวดหมู่ต่อไปนี้
- วิจารณ์ไปในทางเสื่อมเสีย
- เป็นพิษ
- มีเนื้อหาเกี่ยวกับเรื่องเพศ
- รุนแรง
- การแพทย์
- อันตราย
การตั้งค่าเหล่านี้ช่วยให้คุณที่เป็นนักพัฒนาซอฟต์แวร์กำหนดได้ที่เหมาะกับกรณีการใช้งานของคุณ ตัวอย่างเช่น หากคุณกำลังสร้างบทพูดของวิดีโอเกม คุณอาจยอมรับเนื้อหาที่จัดว่ามีความรุนแรงหรือเป็นอันตรายก็ได้ตามลักษณะของเกมนั้น ต่อไปนี้เป็นตัวอย่างกรณีการใช้งานอื่นๆ ที่อาจต้องมีความยืดหยุ่นมากขึ้นในการตั้งค่าความปลอดภัยเหล่านี้
กรณีการใช้งาน | หมวดหมู่ |
---|---|
แอปการฝึกอบรมต่อต้านการล่วงละเมิด | เนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสีย มีเนื้อหาเกี่ยวกับเรื่องเพศ เป็นโทษ |
เพื่อนแพทย์เพื่อเตรียมสอบ | การแพทย์ |
ผู้เขียนบทภาพยนตร์ | รุนแรง ทางเพศ การแพทย์ อันตราย |
ตัวแยกประเภทความเป็นพิษ | หยาบคาย วิจารณ์ไปในทางเสื่อมเสีย |
ความน่าจะเป็นกับความรุนแรง
PaLM API จะบล็อกเนื้อหาตามความน่าจะเป็นของเนื้อหาที่ไม่ปลอดภัยและไม่ใช่ความรุนแรง ข้อนี้เป็นสิ่งสำคัญที่ต้องพิจารณาเนื่องจากเนื้อหาบางอย่างมีแนวโน้มต่ำว่าจะไม่ปลอดภัย แม้ว่าความรุนแรงของอันตรายอาจอยู่ในระดับสูงก็ตาม เช่น เมื่อเปรียบเทียบประโยคต่อไปนี้
- หุ่นยนต์ต่อยฉัน
- หุ่นยนต์วิ่งชนฉัน
ประโยคที่ 1 อาจทำให้มีแนวโน้มสูงขึ้นที่จะไม่ปลอดภัย แต่คุณอาจถือว่าประโยคที่ 2 เป็นความรุนแรงมากขึ้นในแง่ของความรุนแรง
ด้วยเหตุนี้ นักพัฒนาแอปแต่ละรายจึงต้องทดสอบอย่างรอบคอบและพิจารณาว่าการบล็อกระดับใดที่จำเป็นเพื่อรองรับกรณีการใช้งานที่สำคัญๆ ของตน ขณะเดียวกันก็ช่วยลดอันตรายต่อผู้ใช้ปลายทางให้เหลือน้อยที่สุด
การตั้งค่าความปลอดภัย
การตั้งค่าความปลอดภัยเป็นส่วนหนึ่งของคำขอที่คุณส่งไปยังบริการข้อความ ซึ่งจะปรับเปลี่ยนได้สำหรับคำขอแต่ละรายการที่คุณสร้างให้กับ API ตารางต่อไปนี้แสดงหมวดหมู่ที่คุณสามารถตั้งค่าและอธิบายประเภทของอันตรายที่แต่ละหมวดหมู่ครอบคลุม
หมวดหมู่ | คำอธิบาย |
---|---|
วิจารณ์ไปในทางเสื่อมเสีย | ความคิดเห็นเชิงลบหรือเป็นอันตรายซึ่งมุ่งเป้าไปที่ข้อมูลประจำตัวและ/หรือแอตทริบิวต์ที่มีการป้องกัน |
เป็นพิษ | เนื้อหาที่หยาบคาย ดูหมิ่น หรือหยาบคาย |
มีเนื้อหาเกี่ยวกับเรื่องเพศ | มีการอ้างอิงถึงกิจกรรมทางเพศหรือเนื้อหาลามกอื่นๆ |
รุนแรง | อธิบายสถานการณ์ที่แสดงภาพความรุนแรงต่อบุคคลหรือกลุ่มคน หรือการบรรยายถึงการนองเลือดโดยทั่วไป |
อันตราย | ส่งเสริม เอื้ออำนวย หรือส่งเสริมการกระทำที่เป็นอันตราย |
การแพทย์ | เนื้อหาที่เกี่ยวข้องกับหัวข้อทางการแพทย์ |
คุณดูคำจำกัดความเหล่านี้ในข้อมูลอ้างอิง API ได้ด้วย
ตารางต่อไปนี้อธิบายการตั้งค่าการบล็อกที่คุณปรับเปลี่ยนได้สำหรับแต่ละหมวดหมู่ ตัวอย่างเช่น หากคุณตั้งค่าการบล็อกเป็นบล็อกจำนวนน้อยสำหรับหมวดหมู่ที่มีการวิจารณ์ไปในทางเสื่อมเสีย ระบบจะบล็อกทุกอย่างที่มีความเป็นไปได้สูงว่าจะเป็นเนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสีย แต่อนุญาตทุกอย่างที่มีความน่าจะเป็นต่ำกว่า
หากไม่ได้ตั้งค่า การตั้งค่าการบล็อกเริ่มต้นจะเป็นบล็อกบางรายการหรือบล็อกบ่อยที่สุด ทั้งนี้ขึ้นอยู่กับหมวดหมู่นโยบาย
เกณฑ์ (Google AI Studio) | เกณฑ์ (API) | คำอธิบาย |
---|---|---|
ไม่บล็อก | BLOCK_NONE | แสดงเสมอโดยไม่คำนึงถึงความน่าจะเป็นของเนื้อหาที่ไม่ปลอดภัย |
บล็อกเพียงไม่กี่รายการ | BLOCK_ONLY_HIGH | บล็อกเมื่อมีความเป็นไปได้สูงที่เนื้อหาที่ไม่ปลอดภัย |
บล็อกบางส่วน (ค่าเริ่มต้นสำหรับเรื่องเพศ ความรุนแรง เป็นอันตราย และการแพทย์) | BLOCK_MEDIUM_AND_ABOVE | บล็อกเมื่อมีโอกาสปานกลางหรือสูงที่เนื้อหาที่ไม่ปลอดภัย |
บล็อกส่วนใหญ่ (ค่าเริ่มต้นสำหรับเนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสียและมีเนื้อหาหยาบคาย) | BLOCK_LOW_AND_ABOVE | บล็อกเมื่อมีแนวโน้มต่ำ ปานกลาง หรือสูงเกี่ยวกับเนื้อหาที่ไม่ปลอดภัย |
HARM_BLOCK_THRESHOLD_UNSPECIFIED | ไม่ได้ระบุเกณฑ์ โปรดบล็อกโดยใช้เกณฑ์เริ่มต้น |
คุณสามารถตั้งค่าเหล่านี้สำหรับแต่ละคำขอที่คุณส่งไปยังบริการข้อความ ดูรายละเอียดได้ที่เอกสารอ้างอิง API ของ HarmBlockThreshold
ความคิดเห็นด้านความปลอดภัย
หากเนื้อหาถูกบล็อก การตอบกลับจาก API จะมีเหตุผลที่เนื้อหาถูกบล็อกในช่อง ContentFilter.reason
หากเหตุผลเกี่ยวข้องกับความปลอดภัย การตอบกลับจะมีช่อง SafetyFeedback
ที่มีการตั้งค่าความปลอดภัยที่ใช้สำหรับคำขอนั้น รวมถึงคะแนนความปลอดภัยด้วย คะแนนความปลอดภัยประกอบด้วยหมวดหมู่และความน่าจะเป็นของการจัดประเภทอันตราย เนื้อหาที่ถูกบล็อกจะไม่แสดง
ความน่าจะเป็นที่แสดงจะสอดคล้องกับระดับความเชื่อมั่นของบล็อกดังที่แสดงในตารางต่อไปนี้
ความน่าจะเป็น | คำอธิบาย |
---|---|
ไม่เกี่ยวข้อง | เนื้อหามีแนวโน้มน้อยมากที่จะไม่ปลอดภัย |
ต่ำ | เนื้อหามีแนวโน้มต่ำว่าจะไม่ปลอดภัย |
ปานกลาง | เนื้อหามีแนวโน้มปานกลางที่จะไม่ปลอดภัย |
สูง | เนื้อหามีแนวโน้มสูงที่จะไม่ปลอดภัย |
เช่น หากบล็อกเนื้อหาเนื่องจากหมวดหมู่ความเป็นพิษมีความน่าจะเป็นสูง คะแนนความปลอดภัยที่แสดงจะมีหมวดหมู่เท่ากับ TOXICITY
และมีการตั้งค่าความน่าจะเป็นของอันตรายเป็น HIGH
การตั้งค่าความปลอดภัยใน Google AI Studio
คุณตั้งค่าเหล่านี้ใน Google AI Studio ได้เช่นกัน ในการตั้งค่าการเรียกใช้ ให้คลิกแก้ไขการตั้งค่าความปลอดภัย
และใช้ปุ่มบิดเพื่อปรับการตั้งค่าแต่ละรายการ:
ข้อความ
ไม่มีเนื้อหา จะปรากฏหากเนื้อหานั้นถูกบล็อก หากต้องการดูรายละเอียดเพิ่มเติม ให้วางเมาส์เหนือไม่มีเนื้อหา แล้วคลิก ความปลอดภัยตัวอย่างโค้ด
ส่วนนี้จะแสดงวิธีใช้การตั้งค่าความปลอดภัยในโค้ดโดยใช้ไลบรารีของไคลเอ็นต์ Python
ตัวอย่างคำขอ
ต่อไปนี้เป็นข้อมูลโค้ด Python ที่แสดงวิธีตั้งค่าความปลอดภัยในการเรียกใช้ GenerateText
โดยจะกำหนดหมวดหมู่อันตราย Derogatory
และ Violence
เป็น BLOCK_LOW_AND_ABOVE
ซึ่งบล็อกเนื้อหาที่มีความเป็นไปได้น้อยหรือสูงกว่าที่จะเกิดความรุนแรงหรือเสื่อมเสีย
completion = genai.generate_text(
model=model,
prompt=prompt,
safety_settings=[
{
"category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
{
"category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
"threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
},
]
)
ตัวอย่างการตอบกลับ
ตัวอย่างต่อไปนี้แสดงข้อมูลโค้ดสำหรับการแยกวิเคราะห์ความคิดเห็นด้านความปลอดภัยจากการตอบกลับ โปรดทราบว่าความคิดเห็นด้านความปลอดภัยจะว่างเปล่า เว้นแต่เหตุผลในการบล็อกเป็นหนึ่งในมิติข้อมูลด้านความปลอดภัย
# First check the content filter reason
for filter in completion.filters:
print(filter["reason"])
# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
print(feedback["rating"])
print(feedback["setting"])s
ขั้นตอนถัดไป
- โปรดดูข้อมูลอ้างอิง API เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ API เต็มรูปแบบ
- อ่านหลักเกณฑ์ด้านความปลอดภัยเพื่อดูภาพรวมทั่วไปในการพิจารณาด้านความปลอดภัยเมื่อพัฒนาโดยใช้ LLM
- ดูข้อมูลเพิ่มเติมเกี่ยวกับการประเมินความน่าจะเป็นเทียบกับความรุนแรงจากทีม Jigsaw
- ดูข้อมูลเพิ่มเติมเกี่ยวกับผลิตภัณฑ์ที่ก่อให้เกิดโซลูชันด้านความปลอดภัย เช่น Perspective API
- คุณใช้การตั้งค่าความปลอดภัยเหล่านี้เพื่อสร้างตัวแยกประเภทสารพิษได้ โปรดดูตัวอย่างการแยกประเภทเพื่อเริ่มต้นใช้งาน