ปกป้องโมเดล

ผลิตภัณฑ์ปัญญาประดิษฐ์ (AI) แบบ Generative (GenAI) เป็นผลิตภัณฑ์ค่อนข้างใหม่และ พฤติกรรมของผู้ใช้อาจแตกต่างกันไปมากขึ้นกว่าซอฟต์แวร์รูปแบบเดิมๆ มาตรการป้องกันที่ปกป้องผลิตภัณฑ์ของคุณจากการใช้ความสามารถของ GenAI ในทางที่ผิดต้องปรับเปลี่ยนให้เหมาะสม คู่มือนี้จะอธิบายวิธีใช้เครื่องมือตรวจสอบการปฏิบัติตามนโยบายเนื้อหาและเครื่องมือใส่ลายน้ำเพื่อปกป้องผลิตภัณฑ์ที่เปิดใช้ GenAI

การปฏิบัติตามนโยบายเนื้อหา

แม้จะมีการปรับแต่งเพื่อความปลอดภัยก่อนหน้านี้ และการออกแบบมาเป็นอย่างดี เทมเพลตพรอมต์ สำหรับ GenAI ของคุณ เพื่อแสดงเนื้อหาที่ก่อให้เกิดอันตรายโดยไม่ตั้งใจ ผลิตภัณฑ์ GenAI มักอาศัยการกรองอินพุตและเอาต์พุตเพื่อให้มั่นใจว่าโมเดลจะทำงานอย่างมีความรับผิดชอบ เทคนิคเหล่านี้จะตรวจสอบว่าข้อมูลที่เข้าหรือออกจากโมเดลเป็นไปตามนโยบายของคุณหรือไม่ โดยมักทำผ่านการฝึกความปลอดภัยเพิ่มเติมเพื่อสร้างโมเดลการจัดประเภทเนื้อหา

ตัวแยกประเภทอินพุตใช้เพื่อกรองเนื้อหาที่ละเมิดนโยบายเนื้อหาโดยตรงหรืออาจทำให้โมเดลสร้างเนื้อหาที่ละเมิดนโยบายเนื้อหา อินพุต ตัวกรองมักมุ่งเป้าไปที่การโจมตีที่ไม่พึงประสงค์ซึ่งพยายามหลีกเลี่ยงเนื้อหาของคุณ

ตัวแยกประเภทเอาต์พุตจะกรองเอาต์พุตโมเดล ตรวจจับเนื้อหาที่สร้างขึ้นซึ่งละเมิด นโยบายความปลอดภัยของคุณ การตรวจสอบพฤติกรรมการปฏิเสธเนื้อหาอย่างละเอียดอาจแสดงพรอมต์ประเภทใหม่ที่ใช้เพื่อเสริมหรือปรับปรุงตัวกรองอินพุตได้

เราขอแนะนำให้ใช้ตัวจัดหมวดหมู่ที่ครอบคลุมนโยบายเนื้อหาทั้งหมด ซึ่งคุณสามารถทำได้โดยใช้ตัวแยกประเภทสำเร็จรูป หรือ คุณอาจต้องสร้างตัวแยกประเภทที่กำหนดเองเพื่อรองรับ นโยบายเฉพาะของคุณ

ความสมดุลก็เป็นกุญแจสำคัญ การกรองมากเกินไปอาจก่อให้เกิดอันตรายโดยไม่ตั้งใจหรือลดประโยชน์ของแอปพลิเคชัน ดังนั้นโปรดตรวจสอบกรณีที่อาจมีการกรองมากเกินไป ดูข้อมูลเพิ่มเติมได้ที่คู่มือการประเมินความปลอดภัย

ตัวจัดประเภทนโยบายเนื้อหาสำเร็จรูป

ตัวแยกประเภทเนื้อหาสำเร็จรูปจะเพิ่มการป้องกันอีกชั้นให้กับ ของโมเดลความปลอดภัยโดยทั่วไป ซึ่งช่วยลดโอกาสของ การละเมิดนโยบายประเภทต่างๆ โดยทั่วไปจะมี 2 รูปแบบ ดังนี้

  1. ตัวจัดประเภทที่โฮสต์ด้วยตนเอง เช่น ShieldGemma สามารถดาวน์โหลดและโฮสต์บนสถาปัตยกรรมที่หลากหลาย รวมถึงแพลตฟอร์มระบบคลาวด์ เช่น Google Cloud, ฮาร์ดแวร์ส่วนบุคคล และตัวจัดประเภทบางรายการยังทำงานในอุปกรณ์สำหรับแอปพลิเคชันบนอุปกรณ์เคลื่อนที่ได้ด้วย
  2. ตัวแยกประเภทที่ใช้ API เป็นบริการที่มอบข้อมูลปริมาณมาก การแยกประเภทที่มีเวลาในการตอบสนองต่ำเมื่อเทียบกับนโยบายต่างๆ Google มี บริการ 3 ประเภทที่คุณอาจสนใจ
    • ตรวจสอบความปลอดภัยของ AI ให้การประเมินการปฏิบัติตามข้อกำหนดและแดชบอร์ดที่รองรับการประเมินและการตรวจสอบโมเดล ความปลอดภัยของ AI อยู่ในรุ่นเบต้าแบบเปิด คุณสามารถลงชื่อสมัครใช้ข่าวสารได้ การเข้าถึง และการสาธิต
    • บริการการกลั่นกรองข้อความเป็น Google Cloud API ที่วิเคราะห์ข้อความเพื่อหาการละเมิดด้านความปลอดภัย ซึ่งรวมถึงหมวดหมู่ที่เป็นอันตราย และหัวข้อที่ละเอียดอ่อนโดยขึ้นอยู่กับอัตราการใช้งาน
    • Perspective API เป็น API ที่ไม่มีค่าใช้จ่ายซึ่งใช้โมเดลแมชชีนเลิร์นนิงในการให้คะแนนผลกระทบที่ความคิดเห็นอาจทำให้เกิดกับการสนทนา โดยจะแสดงคะแนนที่ระบุความน่าจะเป็นว่าความคิดเห็นนั้นไม่เหมาะสม เป็นการข่มขู่ เป็นการดูหมิ่น หรือไม่ตรงประเด็น

คุณควรประเมินว่าตัวแยกประเภทที่สร้างไว้ล่วงหน้าเป็นไปตามเป้าหมายด้านนโยบายของคุณได้ดีเพียงใด และประเมินกรณีที่มีข้อผิดพลาดในเชิงคุณภาพ

ตัวแยกประเภทนโยบายเนื้อหาที่กำหนดเอง

ตัวแยกประเภทนโยบายเนื้อหาแบบสำเร็จรูปเป็นจุดเริ่มต้นที่ยอดเยี่ยม แต่ก็มี ซึ่งรวมถึงข้อจำกัดต่อไปนี้

  • การจัดหมวดหมู่นโยบายแบบคงที่ซึ่งอาจไม่ได้เชื่อมโยงหรือครอบคลุมนโยบายเนื้อหาทั้งหมด
  • ข้อกำหนดด้านฮาร์ดแวร์และการเชื่อมต่อที่อาจไม่เหมาะสมกับสภาพแวดล้อมที่จะติดตั้งใช้งานแอปพลิเคชันที่ทำงานด้วย GenAI
  • การกำหนดราคาและข้อจำกัดอื่นๆ ในการใช้งาน

ตัวจัดประเภทนโยบายเนื้อหาที่กำหนดเองอาจเป็นวิธีหนึ่งในการแก้ปัญหาข้อจำกัดเหล่านี้ และวิธีการตัวจัดประเภทแบบยืดหยุ่นจะให้เฟรมเวิร์กในการสร้างตัวจัดประเภทที่มีประสิทธิภาพและยืดหยุ่น เนื่องจากวิธีการนี้ปรับแต่งโมเดลเพื่อความปลอดภัย โปรดอ่านข้อมูลเบื้องต้นเกี่ยวกับการปรับแต่งโมเดล

ระบุเนื้อหาที่ AI สร้างขึ้นด้วยลายน้ำข้อความ SynthID

GenAI สามารถสร้างเนื้อหาที่หลากหลายมากขึ้นในวงกว้างอย่างที่ไม่เคยมีมาก่อน แม้ว่าการใช้งานส่วนใหญ่จะมีจุดประสงค์ที่ถูกต้องตามกฎหมาย แต่เราก็มีความกังวลว่าอาจทำให้เกิดปัญหาการระบุแหล่งที่มาที่ไม่ถูกต้องและข้อมูลเท็จ การใส่ลายน้ำเป็นเทคนิคหนึ่งในการลดผลกระทบที่อาจเกิดขึ้น เนื้อหาที่ AI สร้างขึ้นสามารถใช้ลายน้ำที่มนุษย์มองไม่เห็นได้ และโมเดลการตรวจจับสามารถให้คะแนนเนื้อหาแบบสุ่มเพื่อระบุแนวโน้มว่าเนื้อหาดังกล่าวมีลายน้ำหรือไม่

SynthID เป็นเทคโนโลยี Google DeepMind ที่ใส่ลายน้ำและ ระบุเนื้อหาที่ AI สร้างขึ้นโดยการฝังลายน้ำดิจิทัลลงใน รูปภาพ เสียง ข้อความ หรือวิดีโอที่ AI สร้างขึ้น ข้อความ SynthID คือ พร้อมให้สร้างใน Hugging Face Transformers แล้ว เอกสารงานวิจัยและเอกสารเพื่อดูข้อมูลเพิ่มเติม เกี่ยวกับวิธีใช้ SynthID ในแอปพลิเคชันของคุณ

Google Cloud มีความสามารถในการสร้างลายน้ำของ SynthID สำหรับ วิธีอื่นๆ เช่น ภาพที่สร้างขึ้น สำหรับลูกค้า Vertex AI

แนวทางปฏิบัติแนะนำสำหรับการตั้งค่าการป้องกัน

เราขอแนะนำอย่างยิ่งให้ใช้ตัวจัดประเภทความปลอดภัยเป็นมาตรการป้องกัน อย่างไรก็ตาม ขอบเขตอาจทําให้โมเดล Generative ไม่ได้สร้างอะไรให้ผู้ใช้เลย หากเนื้อหาถูกบล็อก แอปพลิเคชันต้องออกแบบมาให้จัดการกรณีนี้ แชทบ็อตที่ได้รับความนิยมมากที่สุดจะจัดการเรื่องนี้โดยให้คำตอบสำเร็จรูป ("ฉัน ขอโทษนะ ฉันคือโมเดลภาษา ฉันช่วยคุณเกี่ยวกับคำขอนี้ไม่ได้")

ค้นหาสมดุลระหว่างความเป็นประโยชน์และความไม่อันตราย: เมื่อใช้ ตัวแยกประเภทเพื่อความปลอดภัย สิ่งสำคัญคือการเข้าใจว่าพวกเขาก็อาจทำผิดพลาดได้ รวมถึงผลบวกลวงทั้ง 2 ค่า (เช่น การอ้างว่าเอาต์พุตไม่ปลอดภัยเมื่อเอาต์พุตนั้นไม่ปลอดภัย ไม่) และเป็นผลลบลวง (ไม่ได้ติดป้ายกำกับเอาต์พุตว่าไม่ปลอดภัย เมื่อเป็นอยู่) การประเมินตัวแยกประเภทด้วยเมตริกต่างๆ เช่น F1, ความแม่นยำ, การเรียกคืน และ AUC-ROC จะช่วยให้คุณตัดสินใจได้ว่าต้องการลดข้อผิดพลาดประเภทผลบวกลวงหรือผลลบลวง การเปลี่ยนเกณฑ์ของตัวแยกประเภทจะช่วยให้คุณพบจุดสมดุลที่เหมาะสมซึ่งหลีกเลี่ยงการกรองเอาต์พุตมากเกินไป แต่ก็ยังคงให้ความปลอดภัยที่เหมาะสม

ตรวจหาอคติที่เกิดขึ้นโดยไม่ตั้งใจจากตัวแยกประเภท: ตัวแยกประเภทเพื่อความปลอดภัย เช่น โมเดล ML อื่นๆ อาจเผยแพร่อคติที่ไม่ได้เจตนา เช่น วัฒนธรรมและสังคม การเหมารวมทั้งหมด แอปพลิเคชันต้องได้รับการประเมินอย่างเหมาะสมตาม ที่ทำให้เกิดปัญหา โดยเฉพาะอย่างยิ่ง ตัวแยกประเภทเพื่อความปลอดภัยเนื้อหาสามารถ ทำให้เกิดการรบกวนมากเกินไปในเนื้อหาที่เกี่ยวข้องกับข้อมูลระบุตัวตนซึ่งบ่อยกว่า ของการใช้ภาษาที่เป็นการละเมิดทางออนไลน์ ตัวอย่างเช่น เมื่อเปิดตัว Perspective API เป็นครั้งแรก โมเดลจะแสดงคะแนนความเป็นพิษที่สูงกว่าในความคิดเห็นที่อ้างอิงถึงกลุ่มอัตลักษณ์บางอย่าง (บล็อก) การเรียกใช้มากเกินไปนี้ อาจเกิดขึ้นได้ เนื่องจากความคิดเห็นที่กล่าวถึง คำที่บ่งบอกอัตลักษณ์ กลุ่มเป้าหมายที่กำหนดบ่อย (เช่น "คนผิวดำ" "มุสลิม" "สตรีนิยม" "ผู้หญิง" "เกย์" ฯลฯ) มักเป็นเนื้อหาที่ไม่เหมาะสม เมื่อต้องใช้ชุดข้อมูลเพื่อ ตัวแยกประเภทรถไฟมีความไม่สมดุลอย่างมากสำหรับความคิดเห็นที่มี คำต่างๆ ตัวแยกประเภทอาจทำให้เนื้อหากว้างเกินไปและพิจารณาความคิดเห็นทั้งหมดที่มีคำเหล่านั้น ว่ามีแนวโน้มว่าจะไม่ปลอดภัย อ่านวิธีที่ทีม Jigsaw ลดอคติที่ไม่ตั้งใจนี้

แหล่งข้อมูลสำหรับนักพัฒนาแอป