สร้างการป้องกันอินพุตและเอาต์พุต

แอปพลิเคชัน Generative AI มักอาศัยการกรองข้อมูลอินพุตและเอาต์พุต ซึ่งบางครั้งเรียกว่าการป้องกัน เพื่อช่วยให้มั่นใจได้ว่า รูปแบบที่มีความรับผิดชอบ พฤติกรรมของคุณ เทคนิคการกรองอินพุตและเอาต์พุตจะตรวจสอบข้อมูลที่กำลังป้อนหรือ การแสดงออกของโมเดลเป็นไปตามนโยบายที่คุณ สำหรับแอปพลิเคชันของคุณ

การป้องกันสำเร็จรูป

แม้จะมีการปรับแต่งเพื่อความปลอดภัยและเทมเพลตพรอมต์ที่ออกแบบมาอย่างดี ยังคงเป็นไปได้ที่โมเดลของคุณจะแสดงผลเนื้อหาที่ก่อให้เกิดอันตรายโดยไม่ตั้งใจ เพื่อช่วยแก้ไขประเด็นนี้ ตัวแยกประเภทเนื้อหาสามารถเพิ่มเลเยอร์ของ ตัวแยกประเภทเนื้อหาใช้ได้กับทั้งอินพุตและเอาต์พุต

ตัวแยกประเภทอินพุตมักจะใช้เพื่อกรองเนื้อหาที่ไม่ต้องการ ใช้ในแอปพลิเคชันของคุณ และอาจทำให้โมเดลของคุณละเมิด นโยบายความปลอดภัย ตัวกรองอินพุตมักจะพุ่งเป้าโจมตีโจมตีแบบตรงข้าม ซึ่งพยายาม หลบเลี่ยงนโยบายเนื้อหาของคุณ ตัวแยกประเภทเอาต์พุตสามารถกรองโมเดลเพิ่มเติมได้ เพื่อตรวจจับสิ่งที่สร้างขึ้นโดยไม่ตั้งใจซึ่งอาจละเมิดนโยบายความปลอดภัยของคุณ เราแนะนำให้ใช้ตัวแยกประเภทที่ครอบคลุมนโยบายเนื้อหาทั้งหมด

Google มีตัวแยกประเภทแบบ API เพื่อความปลอดภัยของเนื้อหาที่สามารถใช้เพื่อ กรองอินพุตและเอาต์พุตของระบบ:

  • Perspective API เป็น API ฟรีที่ใช้เครื่อง โมเดลการเรียนรู้เพื่อให้คะแนนผลกระทบที่การรับรู้ของความคิดเห็นอาจมีต่อ การสนทนา รายงานจะแสดงคะแนนที่แสดงความน่าจะเป็นว่า ความคิดเห็นเป็นพิษเป็นภัย ข่มขู่ ดูหมิ่น หรือไม่ตรงประเด็น
  • บริการการกลั่นกรองข้อความ คือ Google Cloud API ที่ ใช้งานได้ภายใต้ขีดจำกัดการใช้งานที่กำหนด และ ใช้แมชชีนเลิร์นนิงเพื่อวิเคราะห์เอกสารเทียบกับรายการความปลอดภัย รวมถึงหมวดหมู่และหัวข้อที่อาจเป็นอันตราย อาจถือว่ามีความละเอียดอ่อน

คุณควรประเมินว่าตัวแยกประเภทสำเร็จรูปเป็นไปตามนโยบายของคุณมากน้อยเพียงใด เป้าหมาย และประเมินกรณีความล้มเหลวในเชิงคุณภาพ นอกจากนี้ คุณยังต้อง แต่การกรองมากเกินไปอาจทำให้เกิดอันตรายโดยไม่ตั้งใจ เช่นเดียวกับการลด ในประโยชน์ใช้สอยของแอปพลิเคชัน ซึ่งหมายความว่าคุณต้องตรวจสอบ ในกรณีที่มีการกรองมากเกินไป ดูรายละเอียดเพิ่มเติมเกี่ยวกับการประเมินดังกล่าว โปรดดูประเมินโมเดลและระบบเพื่อความปลอดภัย

สร้างตัวแยกประเภทเพื่อความปลอดภัยที่ปรับแต่งเอง

มีหลายสาเหตุที่การป้องกันสำเร็จรูปอาจไม่เหมาะกับ กรณีการใช้งานของคุณ เช่น การมีนโยบายที่ไม่รองรับหรือต้องการดำเนินการ ปรับแต่งการป้องกันเพิ่มเติมด้วยข้อมูลที่คุณสังเกตเห็นว่าส่งผลกระทบต่อระบบของคุณ ใน ในกรณีนี้ ตัวแยกประเภทที่มีความคล่องตัวจะมอบ เฟรมเวิร์กที่ยืดหยุ่นสำหรับการสร้างการป้องกันที่กำหนดเองโดยการปรับแต่งโมเดล เช่น Gemma เพื่อให้เหมาะกับความต้องการของคุณ และยังช่วยให้คุณควบคุมได้เต็มที่ว่าจะ วิธีใช้งาน

บทแนะนำการแยกประเภท Gemma Agile

เริ่ม Codelab เริ่ม Google Colab

ตัวแยกประเภทที่มีความคล่องตัว codelab และ บทแนะนำใช้ LoRA เพื่อปรับแต่ง Gemma เพื่อทำหน้าที่เป็นตัวแยกประเภทการกลั่นกรองเนื้อหาโดยใช้ KerasNLP ไลบรารี เมื่อใช้ตัวอย่างเพียง 200 รายการจากชุดข้อมูล ETHOS ทำให้ ตัวแยกประเภทมีคะแนน F1 ที่ 0.80 และมีคะแนน ROC-AUC ของ 0.78 ซึ่งเปรียบเทียบกับเทคโนโลยีที่ทันสมัย ผลลัพธ์ลีดเดอร์บอร์ด เมื่อฝึกฝนกับตัวอย่าง 800 รายการ เช่นเดียวกับตัวแยกประเภทอื่นๆ ในลีดเดอร์บอร์ด ตัวแยกประเภทแบบคล่องตัวที่ใช้ Gemma ได้คะแนน F1 เท่ากับ 83.74 และคะแนน ROC-AUC อยู่ที่ 88.17 คุณสามารถปรับเปลี่ยน คำแนะนำในบทแนะนำเพื่อปรับแต่งตัวแยกประเภทนี้เพิ่มเติม หรือเพื่อสร้างของคุณเอง การป้องกันตัวแยกประเภทเพื่อความปลอดภัยแบบกำหนดเอง

แนวทางปฏิบัติแนะนำสำหรับการตั้งค่าการป้องกัน

ขอแนะนำให้ใช้ตัวแยกประเภทเพื่อความปลอดภัยเป็นการป้องกัน อย่างไรก็ตาม แนวขวางอาจทำให้โมเดล Generative ไม่สร้างผลลัพธ์ใดๆ สำหรับ หากเนื้อหาถูกบล็อก แอปพลิเคชันต้องได้รับการออกแบบมาเพื่อรองรับ แชทบ็อตที่ได้รับความนิยมมากที่สุดจะจัดการเรื่องนี้โดยให้คำตอบสำเร็จรูป ("ฉัน ขอโทษนะ ฉันคือโมเดลภาษา ฉันช่วยคุณเกี่ยวกับคำขอนี้ไม่ได้")

ค้นหาสมดุลระหว่างความเป็นประโยชน์และความไม่อันตราย: เมื่อใช้ ตัวแยกประเภทเพื่อความปลอดภัย สิ่งสำคัญคือการเข้าใจว่าพวกเขาก็อาจทำผิดพลาดได้ รวมถึงผลบวกลวงทั้ง 2 ค่า (เช่น การอ้างว่าเอาต์พุตไม่ปลอดภัยเมื่อเอาต์พุตนั้นไม่ปลอดภัย ไม่) และเป็นผลลบลวง (ไม่ได้ติดป้ายกำกับเอาต์พุตว่าไม่ปลอดภัย เมื่อเป็นอยู่) โดย ประเมินตัวแยกประเภทด้วยเมตริก เช่น F1, Precision, Recall และ AUC-ROC สามารถระบุวิธีที่คุณต้องการทดแทนข้อสันนิษฐานที่ผิดพลาดและเท็จ ข้อผิดพลาดด้านลบ การเปลี่ยนเกณฑ์ของตัวแยกประเภทจะช่วยให้คุณค้นพบ ความสมดุลที่เหมาะสมซึ่งหลีกเลี่ยงการกรองเอาต์พุตมากเกินไปในขณะที่ยังคงให้ ความปลอดภัยที่เหมาะสม

ตรวจหาอคติที่เกิดขึ้นโดยไม่ตั้งใจจากตัวแยกประเภท: ตัวแยกประเภทเพื่อความปลอดภัย เช่น โมเดล ML อื่นๆ อาจเผยแพร่อคติที่ไม่ได้เจตนา เช่น วัฒนธรรมและสังคม การเหมารวมทั้งหมด แอปพลิเคชันต้องได้รับการประเมินอย่างเหมาะสมตาม ที่ทำให้เกิดปัญหา โดยเฉพาะอย่างยิ่ง ตัวแยกประเภทเพื่อความปลอดภัยเนื้อหาสามารถ ทำให้เกิดการรบกวนมากเกินไปในเนื้อหาที่เกี่ยวข้องกับข้อมูลระบุตัวตนซึ่งบ่อยกว่า ของการใช้ภาษาที่เป็นการละเมิดทางออนไลน์ เช่น เมื่อ Perspective API เปิดตัวครั้งแรก โมเดลนี้ส่งคะแนนความเป็นอันตรายในความคิดเห็นสูงขึ้น อ้างอิงถึงกลุ่มอัตลักษณ์บางกลุ่ม (บล็อก) การเรียกใช้มากเกินไปนี้ อาจเกิดขึ้นได้เนื่องจากความคิดเห็นที่พูดถึงคำที่เป็นอัตลักษณ์ กลุ่มเป้าหมายที่กำหนดบ่อย (เช่น "คนผิวดำ" "มุสลิม" "สตรีนิยม" "ผู้หญิง" "เกย์" ฯลฯ) มักจะเป็นพิษเป็นภัย เมื่อต้องใช้ชุดข้อมูลเพื่อ ตัวแยกประเภทรถไฟมีความไม่สมดุลอย่างมากสำหรับความคิดเห็นที่มี คำต่างๆ ตัวแยกประเภทอาจทำให้เนื้อหากว้างเกินไปและพิจารณาความคิดเห็นทั้งหมดที่มีคำเหล่านั้น ว่ามีแนวโน้มว่าจะไม่ปลอดภัย อ่านวิธีที่ทีม Jigsaw ช่วยลดอคติที่เกิดขึ้นโดยไม่ได้ตั้งใจนี้ลงได้

แหล่งข้อมูลสำหรับนักพัฒนาแอป