แม้ว่าแนวทางที่มีความรับผิดชอบสำหรับ AI ควรมีนโยบายด้านความปลอดภัย เทคนิคในการปรับปรุงความปลอดภัยของโมเดล และวิธีสร้างอาร์ติแฟกต์ที่มีความโปร่งใส แต่แนวทางในการรับผิดชอบต่อ Generative AI ของคุณไม่ควรเป็นเพียงการทำตามรายการตรวจสอบ ผลิตภัณฑ์ Generative AI ค่อนข้างใหม่ และลักษณะการทำงานของแอปพลิเคชันอาจแตกต่างกันไปมากกว่ารูปแบบซอฟต์แวร์เดิมๆ ด้วยเหตุนี้ คุณจึงควรตรวจสอบโมเดลแมชชีนเลิร์นนิงที่ใช้ ดูตัวอย่างลักษณะการทำงานของโมเดล และตรวจสอบเซอร์ไพรส์
ปัจจุบันข้อความแจ้งมีความเป็นศิลปะมากพอๆ กับวิทยาศาสตร์ แต่ก็ยังมีเครื่องมือที่ช่วยให้คุณปรับปรุงข้อความแจ้งสําหรับโมเดลภาษาขนาดใหญ่ได้อย่างเห็นได้ชัด เช่น เครื่องมือความสามารถในการตีความการเรียนรู้ (LIT) LIT เป็นแพลตฟอร์มโอเพนซอร์สที่พัฒนาขึ้นสำหรับการแสดงภาพ การทำความเข้าใจ และแก้ไขข้อบกพร่องของโมเดล AI/ML ด้านล่างนี้คือตัวอย่างวิธีใช้ LIT เพื่อสำรวจพฤติกรรมของ Gemma, คาดการณ์ปัญหาที่อาจเกิดขึ้น และปรับปรุงความปลอดภัย
คุณติดตั้ง LIT บนเครื่องของคุณเอง, ใน Colab หรือใน Google Cloud ก็ได้ หากต้องการเริ่มต้นใช้งาน LIT ให้นำเข้าโมเดลและชุดข้อมูลที่เกี่ยวข้อง (เช่น ชุดข้อมูลการประเมินความปลอดภัย) ใน Colab LIT จะสร้างชุดเอาต์พุตสำหรับชุดข้อมูลโดยใช้โมเดลของคุณ และมีอินเทอร์เฟซผู้ใช้สำหรับสำรวจพฤติกรรมของโมเดล
วิเคราะห์โมเดล Gemma ด้วย LIT
![]() |
![]() |
รูปภาพนี้แสดงอินเทอร์เฟซผู้ใช้ของ LIT เครื่องมือแก้ไขจุดข้อมูลที่ด้านบนช่วยให้ผู้ใช้แก้ไขพรอมต์ได้ ส่วนโมดูล LM Salience จะช่วยให้นักเรียน ตรวจสอบผลลัพธ์ความทันสมัยได้
ระบุข้อผิดพลาดในพรอมต์ที่ซับซ้อน
เทคนิคการเตือนที่สำคัญ 2 อย่างสำหรับต้นแบบและแอปพลิเคชันคุณภาพสูงที่ใช้ LLM คือข้อความแจ้ง 2-3 ครั้ง (รวมถึงตัวอย่างลักษณะการทำงานที่ต้องการในพรอมต์) และเชนความคิด รวมถึงรูปแบบคำอธิบายหรือการให้เหตุผลก่อนแสดงผลลัพธ์สุดท้ายของ LLM อย่างไรก็ตาม การสร้างข้อความแจ้งที่มีประสิทธิภาพมักจะทำได้ยาก
ลองดูตัวอย่างที่ช่วยประเมินว่าจะชอบอาหารตามความชอบหรือไม่ เทมเพลตพรอมต์แนวคิดห่วงโซ่ความคิดเริ่มต้นต้นแบบอาจมีลักษณะดังนี้
Analyze a menu item in a restaurant. ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: You have to try it. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Baguette maison au levain Analysis: Home-made leaven bread in France is usually great Recommendation: Likely good. Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Macaron in France Analysis: Sweet with many kinds of flavours Recommendation: You have to try it. ## Now analyse one more example: Taste-likes: {{users-food-like-preferences}} Taste-dislikes: {{users-food-dislike-preferences}} Suggestion: {{menu-item-to-analyse}} Analysis:
คุณพบปัญหาเกี่ยวกับข้อความแจ้งนี้ไหม LIT จะช่วยคุณตรวจสอบพรอมต์ด้วยโมดูล LM Salience
ใช้ Salience ของลำดับเพื่อแก้ไขข้อบกพร่อง
Salience ได้รับการคำนวณที่ระดับที่เล็กที่สุด (กล่าวคือ สำหรับโทเค็นอินพุตแต่ละโทเค็น) แต่ LIT สามารถรวมความรับรู้ของโทเค็นเป็นช่วงที่กว้างขึ้นที่ตีความได้ เช่น บรรทัด ประโยค หรือคำ ดูข้อมูลเพิ่มเติมเกี่ยวกับความสม่ำเสมอและวิธีใช้เพื่อระบุการให้น้ำหนักพิเศษที่ไม่ตั้งใจได้ใน Interactive Saliency Explorable
เรามาเริ่มต้นด้วยการให้ตัวอย่างอินพุตใหม่ของพรอมต์สำหรับตัวแปรของเทมเพลตพรอมต์ ดังนี้
{{users-food-like-preferences}} = Cheese {{users-food-dislike-preferences}} = Can't eat eggs {{menu-item-to-analyse}} = Quiche Lorraine
เมื่อทำเสร็จแล้ว จะเห็นว่าโมเดลเสร็จสมบูรณ์โดยไม่คาดคิด
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: A savoury tart with cheese and eggs Recommendation: You might not like it, but it's worth trying.
ทำไมโมเดลจึงแนะนำให้คุณกินบางอย่างที่คุณบอกอย่างชัดเจนว่ากินไม่ได้
ความต่อเนื่องของลำดับสามารถช่วยไฮไลต์ปัญหาที่แท้จริง ซึ่งตัวอย่างเล็กๆ น้อยๆ ของเรานี้ ในตัวอย่างแรก การให้เหตุผลเกี่ยวกับห่วงโซ่ความคิดในส่วนการวิเคราะห์ไม่ตรงกับคำแนะนำสุดท้าย การวิเคราะห์ "แอปเคยทำหัวหอม ซึ่งคุณไม่ชอบ" จับคู่กับคำแนะนำว่า "คุณต้องลอง"
ซึ่งไฮไลต์ข้อผิดพลาดในพรอมต์เริ่มต้น คือมีสำเนาคำแนะนำโดยไม่ตั้งใจ (You have to try it!
) สำหรับตัวอย่าง 2-3 ช็อตแรก คุณจะเห็นความเข้มในพรอมต์จากความมืดของไฮไลต์สีม่วง ความสม่ำเสมอสูงสุดอยู่ในตัวอย่าง 2-3 ช็อตแรก โดยเฉพาะในบรรทัดที่สัมพันธ์กับ Taste-likes
, Analysis
และ Recommendation
ซึ่งแสดงให้เห็นว่าโมเดลใช้บรรทัดเหล่านี้มากที่สุดเพื่อสร้างคำแนะนำที่ไม่ถูกต้องในขั้นสุดท้าย
ตัวอย่างนี้ยังไฮไลต์ว่าการสร้างต้นแบบในช่วงแรกนั้นเปิดเผยความเสี่ยงที่คุณอาจไม่ได้นึกถึงล่วงหน้า และลักษณะของโมเดลภาษาที่มีแนวโน้มจะมีข้อผิดพลาดก็คือคุณต้องออกแบบให้มีข้อผิดพลาด ซึ่งจะมีการอธิบายเพิ่มเติมในคู่มือบุคคลและ AI สำหรับการออกแบบด้วย AI
ทดสอบสมมติฐานเพื่อปรับปรุงพฤติกรรมของโมเดล
LIT ให้คุณทดสอบการเปลี่ยนแปลงข้อความแจ้งภายในอินเทอร์เฟซเดียวกัน ในอินสแตนซ์นี้ ให้ลองเพิ่มรัฐธรรมนูญเพื่อปรับปรุงลักษณะการทำงานของโมเดล รัฐธรรมนูญหมายถึงคำสั่งในการออกแบบที่มีหลักการเพื่อช่วยแนะแนวทางในการสร้างโมเดล วิธีการล่าสุดยังเปิดใช้การต่อยอดจาก แบบอินเทอร์แอกทีฟของหลักการทางรัฐธรรมนูญได้ด้วย
เรามาใช้แนวคิดนี้เพื่อปรับปรุงข้อความแจ้งต่อไป ใช้เครื่องมือแก้ไขจุดข้อมูลของ LIT เพื่อเพิ่มส่วนที่มีหลักการสำหรับการสร้างอยู่ที่ด้านบนของข้อความแจ้ง ซึ่งจะเริ่มต้นดังต่อไปนี้
Analyze a menu item in a restaurant. * The analysis should be brief and to the point. * It should provide a clear statement of suitability for someone with specific dietary restrictions. * It should reflect the person's tastes ## For example: Taste-likes: I've a sweet-tooth Taste-dislikes: Don't like onions or garlic Suggestion: Onion soup Analysis: it has cooked onions in it, which you don't like. Recommendation: Avoid.
การอัปเดตนี้จะเรียกใช้ตัวอย่างนี้ได้อีกครั้งและสังเกตผลลัพธ์ที่ต่างกันมาก
Taste-likes: Cheese Taste-dislikes: Can't eat eggs Suggestion: Quiche Lorraine Analysis: This dish contains eggs, which you can't eat. Recommendation: Not suitable for you.
จากนั้นจะสามารถตรวจสอบความทันท่วงทีอีกครั้ง เพื่อทำความเข้าใจว่าเหตุใดการเปลี่ยนแปลงนี้จึงเกิดขึ้น ดังนี้
ในตัวอย่างนี้ "ไม่เหมาะสำหรับคุณ" ได้รับอิทธิพลจากหลักการ "ระบุคำชี้แจงที่ชัดเจนเกี่ยวกับความเหมาะสมสำหรับผู้ที่มีข้อจำกัดเกี่ยวกับอาหารที่ระบุ" และข้อความวิเคราะห์ที่ชัดเจนว่าอาหารจานนี้มีไข่ (สิ่งที่เรียกว่า "ห่วงโซ่ความคิด")
รวมทีมที่ไม่ใช่ทีมเทคนิคในการตรวจสอบโมเดลและการสำรวจ
ความสามารถในการตีความคือการทำงานเป็นทีม ครอบคลุมความเชี่ยวชาญด้านนโยบาย กฎหมาย และอื่นๆ ดังที่คุณเห็นแล้ว สื่อที่เป็นภาพและความสามารถในการโต้ตอบ ของ LIT ในการตรวจสอบความโดดเด่นและตัวอย่างการสำรวจสามารถช่วยให้ผู้มีส่วนเกี่ยวข้องต่างๆ แชร์และสื่อสารสิ่งที่ค้นพบได้ ซึ่งจะทําให้เพื่อนร่วมทีมมีความหลากหลายมากขึ้นสำหรับการสํารวจ ตรวจสอบ และแก้ไขข้อบกพร่องตามรูปแบบ การแสดงวิธีทางเทคนิคเหล่านี้จะช่วยส่งเสริมความเข้าใจเกี่ยวกับวิธีการทำงานของโมเดล นอกจากนี้ ความเชี่ยวชาญที่หลากหลายมากขึ้นในการทดสอบโมเดลขั้นต้นยังช่วยให้ค้นพบผลลัพธ์ที่ไม่พึงประสงค์ซึ่งปรับปรุงให้ดีขึ้นได้
สรุป
เมื่อพบตัวอย่างที่เป็นปัญหาในการประเมินโมเดล ให้นำตัวอย่างดังกล่าวไปไว้ใน LIT เพื่อแก้ไขข้อบกพร่อง เริ่มต้นโดยการวิเคราะห์หน่วยเนื้อหาที่สำคัญที่สุดซึ่งคุณคิดว่ามีความเกี่ยวข้องกับงานการสร้างรูปแบบอย่างมีเหตุผล ใช้การแสดงภาพเพื่อดูว่าโมเดลเข้าชมเนื้อหาพรอมต์อย่างถูกต้องหรือไม่ถูกต้อง จากนั้นจึงเจาะลึกลงในหน่วยเนื้อหาเล็กๆ เพื่ออธิบายเพิ่มเติมถึงพฤติกรรมที่ไม่ถูกต้องที่คุณเห็น เพื่อระบุการแก้ไขที่เป็นไปได้
แหล่งข้อมูลสำหรับนักพัฒนาแอป
- เว็บไซต์ LIT
- คู่มือผู้คน + AI สำหรับการออกแบบด้วย AI