การตั้งค่าความปลอดภัย

ภาพรวม

คู่มือนี้จะอธิบายการตั้งค่าความปลอดภัยที่ปรับได้ของ PaLM API สำหรับบริการข้อความ ในขั้นตอนการสร้างต้นแบบ คุณปรับการตั้งค่าความปลอดภัยในมิติข้อมูล 6 รายการเพื่อประเมินได้อย่างรวดเร็วว่าแอปพลิเคชันต้องมีการกำหนดค่าที่เข้มงวดมากกว่าหรือน้อยกว่า โดยค่าเริ่มต้น การตั้งค่าความปลอดภัยจะบล็อกเนื้อหาที่มีแนวโน้มปานกลางและ/หรือสูงว่าจะเป็นเนื้อหาที่ไม่ปลอดภัยในทั้ง 6 มิติข้อมูล ความปลอดภัยพื้นฐานนี้ออกแบบมาเพื่อใช้กับ Use Case ส่วนใหญ่ ดังนั้นคุณควรปรับการตั้งค่าความปลอดภัยเมื่อจำเป็นสำหรับแอปพลิเคชันของคุณอย่างต่อเนื่องเท่านั้น

ตัวกรองความปลอดภัย

นอกจากตัวกรองความปลอดภัยที่ปรับได้ PaLM API ยังมีการปกป้องในตัวจากอันตรายร้ายแรง เช่น เนื้อหาที่เป็นอันตรายต่อความปลอดภัยของเด็ก ประเภทของอันตรายเหล่านี้จะถูกบล็อกไว้เสมอและไม่สามารถปรับเปลี่ยนได้

ตัวกรองความปลอดภัยที่ปรับได้จะครอบคลุมหมวดหมู่ต่อไปนี้

  • วิจารณ์ไปในทางเสื่อมเสีย
  • เป็นพิษ
  • มีเนื้อหาเกี่ยวกับเรื่องเพศ
  • รุนแรง
  • การแพทย์
  • อันตราย

การตั้งค่าเหล่านี้ช่วยให้คุณที่เป็นนักพัฒนาซอฟต์แวร์กำหนดได้ที่เหมาะกับกรณีการใช้งานของคุณ ตัวอย่างเช่น หากคุณกำลังสร้างบทพูดของวิดีโอเกม คุณอาจยอมรับเนื้อหาที่จัดว่ามีความรุนแรงหรือเป็นอันตรายก็ได้ตามลักษณะของเกมนั้น ต่อไปนี้เป็นตัวอย่างกรณีการใช้งานอื่นๆ ที่อาจต้องมีความยืดหยุ่นมากขึ้นในการตั้งค่าความปลอดภัยเหล่านี้

กรณีการใช้งาน หมวดหมู่
แอปการฝึกอบรมต่อต้านการล่วงละเมิด เนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสีย มีเนื้อหาเกี่ยวกับเรื่องเพศ เป็นโทษ
เพื่อนแพทย์เพื่อเตรียมสอบ การแพทย์
ผู้เขียนบทภาพยนตร์ รุนแรง ทางเพศ การแพทย์ อันตราย
ตัวแยกประเภทความเป็นพิษ หยาบคาย วิจารณ์ไปในทางเสื่อมเสีย

ความน่าจะเป็นกับความรุนแรง

PaLM API จะบล็อกเนื้อหาตามความน่าจะเป็นของเนื้อหาที่ไม่ปลอดภัยและไม่ใช่ความรุนแรง ข้อนี้เป็นสิ่งสำคัญที่ต้องพิจารณาเนื่องจากเนื้อหาบางอย่างมีแนวโน้มต่ำว่าจะไม่ปลอดภัย แม้ว่าความรุนแรงของอันตรายอาจอยู่ในระดับสูงก็ตาม เช่น เมื่อเปรียบเทียบประโยคต่อไปนี้

  1. หุ่นยนต์ต่อยฉัน
  2. หุ่นยนต์วิ่งชนฉัน

ประโยคที่ 1 อาจทำให้มีแนวโน้มสูงขึ้นที่จะไม่ปลอดภัย แต่คุณอาจถือว่าประโยคที่ 2 เป็นความรุนแรงมากขึ้นในแง่ของความรุนแรง

ด้วยเหตุนี้ นักพัฒนาแอปแต่ละรายจึงต้องทดสอบอย่างรอบคอบและพิจารณาว่าการบล็อกระดับใดที่จำเป็นเพื่อรองรับกรณีการใช้งานที่สำคัญๆ ของตน ขณะเดียวกันก็ช่วยลดอันตรายต่อผู้ใช้ปลายทางให้เหลือน้อยที่สุด

การตั้งค่าความปลอดภัย

การตั้งค่าความปลอดภัยเป็นส่วนหนึ่งของคำขอที่คุณส่งไปยังบริการข้อความ ซึ่งจะปรับเปลี่ยนได้สำหรับคำขอแต่ละรายการที่คุณสร้างให้กับ API ตารางต่อไปนี้แสดงหมวดหมู่ที่คุณสามารถตั้งค่าและอธิบายประเภทของอันตรายที่แต่ละหมวดหมู่ครอบคลุม

หมวดหมู่ คำอธิบาย
วิจารณ์ไปในทางเสื่อมเสีย ความคิดเห็นเชิงลบหรือเป็นอันตรายซึ่งมุ่งเป้าไปที่ข้อมูลประจำตัวและ/หรือแอตทริบิวต์ที่มีการป้องกัน
เป็นพิษ เนื้อหาที่หยาบคาย ดูหมิ่น หรือหยาบคาย
มีเนื้อหาเกี่ยวกับเรื่องเพศ มีการอ้างอิงถึงกิจกรรมทางเพศหรือเนื้อหาลามกอื่นๆ
รุนแรง อธิบายสถานการณ์ที่แสดงภาพความรุนแรงต่อบุคคลหรือกลุ่มคน หรือการบรรยายถึงการนองเลือดโดยทั่วไป
อันตราย ส่งเสริม เอื้ออำนวย หรือส่งเสริมการกระทำที่เป็นอันตราย
การแพทย์ เนื้อหาที่เกี่ยวข้องกับหัวข้อทางการแพทย์

คุณดูคำจำกัดความเหล่านี้ในข้อมูลอ้างอิง API ได้ด้วย

ตารางต่อไปนี้อธิบายการตั้งค่าการบล็อกที่คุณปรับเปลี่ยนได้สำหรับแต่ละหมวดหมู่ ตัวอย่างเช่น หากคุณตั้งค่าการบล็อกเป็นบล็อกจำนวนน้อยสำหรับหมวดหมู่ที่มีการวิจารณ์ไปในทางเสื่อมเสีย ระบบจะบล็อกทุกอย่างที่มีความเป็นไปได้สูงว่าจะเป็นเนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสีย แต่อนุญาตทุกอย่างที่มีความน่าจะเป็นต่ำกว่า

หากไม่ได้ตั้งค่า การตั้งค่าการบล็อกเริ่มต้นจะเป็นบล็อกบางรายการหรือบล็อกบ่อยที่สุด ทั้งนี้ขึ้นอยู่กับหมวดหมู่นโยบาย

เกณฑ์ (Google AI Studio) เกณฑ์ (API) คำอธิบาย
ไม่บล็อก BLOCK_NONE แสดงเสมอโดยไม่คำนึงถึงความน่าจะเป็นของเนื้อหาที่ไม่ปลอดภัย
บล็อกเพียงไม่กี่รายการ BLOCK_ONLY_HIGH บล็อกเมื่อมีความเป็นไปได้สูงที่เนื้อหาที่ไม่ปลอดภัย
บล็อกบางส่วน (ค่าเริ่มต้นสำหรับเรื่องเพศ ความรุนแรง เป็นอันตราย และการแพทย์) BLOCK_MEDIUM_AND_ABOVE บล็อกเมื่อมีโอกาสปานกลางหรือสูงที่เนื้อหาที่ไม่ปลอดภัย
บล็อกส่วนใหญ่ (ค่าเริ่มต้นสำหรับเนื้อหาที่มีการวิจารณ์ไปในทางเสื่อมเสียและมีเนื้อหาหยาบคาย) BLOCK_LOW_AND_ABOVE บล็อกเมื่อมีแนวโน้มต่ำ ปานกลาง หรือสูงเกี่ยวกับเนื้อหาที่ไม่ปลอดภัย
HARM_BLOCK_THRESHOLD_UNSPECIFIED ไม่ได้ระบุเกณฑ์ โปรดบล็อกโดยใช้เกณฑ์เริ่มต้น

คุณสามารถตั้งค่าเหล่านี้สำหรับแต่ละคำขอที่คุณส่งไปยังบริการข้อความ ดูรายละเอียดได้ที่เอกสารอ้างอิง API ของ HarmBlockThreshold

ความคิดเห็นด้านความปลอดภัย

หากเนื้อหาถูกบล็อก การตอบกลับจาก API จะมีเหตุผลที่เนื้อหาถูกบล็อกในช่อง ContentFilter.reason หากเหตุผลเกี่ยวข้องกับความปลอดภัย การตอบกลับจะมีช่อง SafetyFeedback ที่มีการตั้งค่าความปลอดภัยที่ใช้สำหรับคำขอนั้น รวมถึงคะแนนความปลอดภัยด้วย คะแนนความปลอดภัยประกอบด้วยหมวดหมู่และความน่าจะเป็นของการจัดประเภทอันตราย เนื้อหาที่ถูกบล็อกจะไม่แสดง

ความน่าจะเป็นที่แสดงจะสอดคล้องกับระดับความเชื่อมั่นของบล็อกดังที่แสดงในตารางต่อไปนี้

ความน่าจะเป็น คำอธิบาย
ไม่เกี่ยวข้อง เนื้อหามีแนวโน้มน้อยมากที่จะไม่ปลอดภัย
ต่ำ เนื้อหามีแนวโน้มต่ำว่าจะไม่ปลอดภัย
ปานกลาง เนื้อหามีแนวโน้มปานกลางที่จะไม่ปลอดภัย
สูง เนื้อหามีแนวโน้มสูงที่จะไม่ปลอดภัย

เช่น หากบล็อกเนื้อหาเนื่องจากหมวดหมู่ความเป็นพิษมีความน่าจะเป็นสูง คะแนนความปลอดภัยที่แสดงจะมีหมวดหมู่เท่ากับ TOXICITY และมีการตั้งค่าความน่าจะเป็นของอันตรายเป็น HIGH

การตั้งค่าความปลอดภัยใน Google AI Studio

คุณตั้งค่าเหล่านี้ใน Google AI Studio ได้เช่นกัน ในการตั้งค่าการเรียกใช้ ให้คลิกแก้ไขการตั้งค่าความปลอดภัย

ปุ่มการตั้งค่าความปลอดภัย

และใช้ปุ่มบิดเพื่อปรับการตั้งค่าแต่ละรายการ:

ปุ่มการตั้งค่าความปลอดภัย

ข้อความ ไม่มีเนื้อหา จะปรากฏหากเนื้อหานั้นถูกบล็อก หากต้องการดูรายละเอียดเพิ่มเติม ให้วางเมาส์เหนือไม่มีเนื้อหา แล้วคลิก ความปลอดภัย

ตัวอย่างโค้ด

ส่วนนี้จะแสดงวิธีใช้การตั้งค่าความปลอดภัยในโค้ดโดยใช้ไลบรารีของไคลเอ็นต์ Python

ตัวอย่างคำขอ

ต่อไปนี้เป็นข้อมูลโค้ด Python ที่แสดงวิธีตั้งค่าความปลอดภัยในการเรียกใช้ GenerateText โดยจะกำหนดหมวดหมู่อันตราย Derogatory และ Violence เป็น BLOCK_LOW_AND_ABOVE ซึ่งบล็อกเนื้อหาที่มีความเป็นไปได้น้อยหรือสูงกว่าที่จะเกิดความรุนแรงหรือเสื่อมเสีย

completion = genai.generate_text(
    model=model,
    prompt=prompt,
    safety_settings=[
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_DEROGATORY,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
        {
            "category": safety_types.HarmCategory.HARM_CATEGORY_VIOLENCE,
            "threshold": safety_types.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        },
    ]
)

ตัวอย่างการตอบกลับ

ตัวอย่างต่อไปนี้แสดงข้อมูลโค้ดสำหรับการแยกวิเคราะห์ความคิดเห็นด้านความปลอดภัยจากการตอบกลับ โปรดทราบว่าความคิดเห็นด้านความปลอดภัยจะว่างเปล่า เว้นแต่เหตุผลในการบล็อกเป็นหนึ่งในมิติข้อมูลด้านความปลอดภัย

# First check the content filter reason
for filter in completion.filters:
    print(filter["reason"])

# If any of the reason is "safety", then the safety_feedback field will be
# populated
for feedback in completion.safety_feedback:
    print(feedback["rating"])
    print(feedback["setting"])s

ขั้นตอนถัดไป

  • โปรดดูข้อมูลอ้างอิง API เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ API เต็มรูปแบบ
  • อ่านหลักเกณฑ์ด้านความปลอดภัยเพื่อดูภาพรวมทั่วไปในการพิจารณาด้านความปลอดภัยเมื่อพัฒนาโดยใช้ LLM
  • ดูข้อมูลเพิ่มเติมเกี่ยวกับการประเมินความน่าจะเป็นเทียบกับความรุนแรงจากทีม Jigsaw
  • ดูข้อมูลเพิ่มเติมเกี่ยวกับผลิตภัณฑ์ที่ก่อให้เกิดโซลูชันด้านความปลอดภัย เช่น Perspective API
  • คุณใช้การตั้งค่าความปลอดภัยเหล่านี้เพื่อสร้างตัวแยกประเภทสารพิษได้ โปรดดูตัวอย่างการแยกประเภทเพื่อเริ่มต้นใช้งาน