วิเคราะห์พฤติกรรมของโมเดลด้วยเครื่องมือตีความ

แม้ว่าแนวทางที่มีความรับผิดชอบสำหรับ AI ควรมีนโยบายด้านความปลอดภัย เทคนิคในการปรับปรุงความปลอดภัยของโมเดล และวิธีสร้างอาร์ติแฟกต์ที่มีความโปร่งใส แต่แนวทางในการรับผิดชอบต่อ Generative AI ของคุณไม่ควรเป็นเพียงการทำตามรายการตรวจสอบ ผลิตภัณฑ์ Generative AI ค่อนข้างใหม่ และลักษณะการทำงานของแอปพลิเคชันอาจแตกต่างกันไปมากกว่ารูปแบบซอฟต์แวร์เดิมๆ ด้วยเหตุนี้ คุณจึงควรตรวจสอบโมเดลแมชชีนเลิร์นนิงที่ใช้ ดูตัวอย่างลักษณะการทำงานของโมเดล และตรวจสอบเซอร์ไพรส์

ปัจจุบันข้อความแจ้งมีความเป็นศิลปะมากพอๆ กับวิทยาศาสตร์ แต่ก็ยังมีเครื่องมือที่ช่วยให้คุณปรับปรุงข้อความแจ้งสําหรับโมเดลภาษาขนาดใหญ่ได้อย่างเห็นได้ชัด เช่น เครื่องมือความสามารถในการตีความการเรียนรู้ (LIT) LIT เป็นแพลตฟอร์มโอเพนซอร์สที่พัฒนาขึ้นสำหรับการแสดงภาพ การทำความเข้าใจ และแก้ไขข้อบกพร่องของโมเดล AI/ML ด้านล่างนี้คือตัวอย่างวิธีใช้ LIT เพื่อสำรวจพฤติกรรมของ Gemma, คาดการณ์ปัญหาที่อาจเกิดขึ้น และปรับปรุงความปลอดภัย

คุณติดตั้ง LIT บนเครื่องของคุณเอง, ใน Colab หรือใน Google Cloud ก็ได้ หากต้องการเริ่มต้นใช้งาน LIT ให้นำเข้าโมเดลและชุดข้อมูลที่เกี่ยวข้อง (เช่น ชุดข้อมูลการประเมินความปลอดภัย) ใน Colab LIT จะสร้างชุดเอาต์พุตสำหรับชุดข้อมูลโดยใช้โมเดลของคุณ และมีอินเทอร์เฟซผู้ใช้สำหรับสำรวจพฤติกรรมของโมเดล

วิเคราะห์โมเดล Gemma ด้วย LIT

เริ่ม Codelab เริ่มต้น Google Colab

ภาพเคลื่อนไหวของอินเทอร์เฟซผู้ใช้ของเครื่องมือตีความการเรียนรู้ (LIT)

รูปภาพนี้แสดงอินเทอร์เฟซผู้ใช้ของ LIT เครื่องมือแก้ไขจุดข้อมูลที่ด้านบนช่วยให้ผู้ใช้แก้ไขพรอมต์ได้ ส่วนโมดูล LM Salience จะช่วยให้นักเรียน ตรวจสอบผลลัพธ์ความทันสมัยได้

ระบุข้อผิดพลาดในพรอมต์ที่ซับซ้อน

เทคนิคการเตือนที่สำคัญ 2 อย่างสำหรับต้นแบบและแอปพลิเคชันคุณภาพสูงที่ใช้ LLM คือข้อความแจ้ง 2-3 ครั้ง (รวมถึงตัวอย่างลักษณะการทำงานที่ต้องการในพรอมต์) และเชนความคิด รวมถึงรูปแบบคำอธิบายหรือการให้เหตุผลก่อนแสดงผลลัพธ์สุดท้ายของ LLM อย่างไรก็ตาม การสร้างข้อความแจ้งที่มีประสิทธิภาพมักจะทำได้ยาก

ลองดูตัวอย่างที่ช่วยประเมินว่าจะชอบอาหารตามความชอบหรือไม่ เทมเพลตพรอมต์แนวคิดห่วงโซ่ความคิดเริ่มต้นต้นแบบอาจมีลักษณะดังนี้

Analyze a menu item in a restaurant.


## For example:


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: You have to try it.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Baguette maison au levain
Analysis: Home-made leaven bread in France is usually great
Recommendation: Likely good.


Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Macaron in France
Analysis: Sweet with many kinds of flavours
Recommendation: You have to try it.


## Now analyse one more example:


Taste-likes: {{users-food-like-preferences}}
Taste-dislikes: {{users-food-dislike-preferences}}
Suggestion: {{menu-item-to-analyse}}
Analysis:

คุณพบปัญหาเกี่ยวกับข้อความแจ้งนี้ไหม LIT จะช่วยคุณตรวจสอบพรอมต์ด้วยโมดูล LM Salience

ใช้ Salience ของลำดับเพื่อแก้ไขข้อบกพร่อง

Salience ได้รับการคำนวณที่ระดับที่เล็กที่สุด (กล่าวคือ สำหรับโทเค็นอินพุตแต่ละโทเค็น) แต่ LIT สามารถรวมความรับรู้ของโทเค็นเป็นช่วงที่กว้างขึ้นที่ตีความได้ เช่น บรรทัด ประโยค หรือคำ ดูข้อมูลเพิ่มเติมเกี่ยวกับความสม่ำเสมอและวิธีใช้เพื่อระบุการให้น้ำหนักพิเศษที่ไม่ตั้งใจได้ใน Interactive Saliency Explorable

เรามาเริ่มต้นด้วยการให้ตัวอย่างอินพุตใหม่ของพรอมต์สำหรับตัวแปรของเทมเพลตพรอมต์ ดังนี้

{{users-food-like-preferences}} = Cheese
{{users-food-dislike-preferences}} = Can't eat eggs
{{menu-item-to-analyse}} = Quiche Lorraine

เมื่อทำเสร็จแล้ว จะเห็นว่าโมเดลเสร็จสมบูรณ์โดยไม่คาดคิด

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: A savoury tart with cheese and eggs
Recommendation: You might not like it, but it's worth trying.

ทำไมโมเดลจึงแนะนำให้คุณกินบางอย่างที่คุณบอกอย่างชัดเจนว่ากินไม่ได้

ความต่อเนื่องของลำดับสามารถช่วยไฮไลต์ปัญหาที่แท้จริง ซึ่งตัวอย่างเล็กๆ น้อยๆ ของเรานี้ ในตัวอย่างแรก การให้เหตุผลเกี่ยวกับห่วงโซ่ความคิดในส่วนการวิเคราะห์ไม่ตรงกับคำแนะนำสุดท้าย การวิเคราะห์ "แอปเคยทำหัวหอม ซึ่งคุณไม่ชอบ" จับคู่กับคำแนะนำว่า "คุณต้องลอง"

อินเทอร์เฟซผู้ใช้ LIT แสดงการวิเคราะห์ความต่อเนื่องของลำดับข้อความแจ้ง

ซึ่งไฮไลต์ข้อผิดพลาดในพรอมต์เริ่มต้น คือมีสำเนาคำแนะนำโดยไม่ตั้งใจ (You have to try it!) สำหรับตัวอย่าง 2-3 ช็อตแรก คุณจะเห็นความเข้มในพรอมต์จากความมืดของไฮไลต์สีม่วง ความสม่ำเสมอสูงสุดอยู่ในตัวอย่าง 2-3 ช็อตแรก โดยเฉพาะในบรรทัดที่สัมพันธ์กับ Taste-likes, Analysis และ Recommendation ซึ่งแสดงให้เห็นว่าโมเดลใช้บรรทัดเหล่านี้มากที่สุดเพื่อสร้างคำแนะนำที่ไม่ถูกต้องในขั้นสุดท้าย

ตัวอย่างนี้ยังไฮไลต์ว่าการสร้างต้นแบบในช่วงแรกนั้นเปิดเผยความเสี่ยงที่คุณอาจไม่ได้นึกถึงล่วงหน้า และลักษณะของโมเดลภาษาที่มีแนวโน้มจะมีข้อผิดพลาดก็คือคุณต้องออกแบบให้มีข้อผิดพลาด ซึ่งจะมีการอธิบายเพิ่มเติมในคู่มือบุคคลและ AI สำหรับการออกแบบด้วย AI

ทดสอบสมมติฐานเพื่อปรับปรุงพฤติกรรมของโมเดล

LIT ให้คุณทดสอบการเปลี่ยนแปลงข้อความแจ้งภายในอินเทอร์เฟซเดียวกัน ในอินสแตนซ์นี้ ให้ลองเพิ่มรัฐธรรมนูญเพื่อปรับปรุงลักษณะการทำงานของโมเดล รัฐธรรมนูญหมายถึงคำสั่งในการออกแบบที่มีหลักการเพื่อช่วยแนะแนวทางในการสร้างโมเดล วิธีการล่าสุดยังเปิดใช้การต่อยอดจาก แบบอินเทอร์แอกทีฟของหลักการทางรัฐธรรมนูญได้ด้วย

เรามาใช้แนวคิดนี้เพื่อปรับปรุงข้อความแจ้งต่อไป ใช้เครื่องมือแก้ไขจุดข้อมูลของ LIT เพื่อเพิ่มส่วนที่มีหลักการสำหรับการสร้างอยู่ที่ด้านบนของข้อความแจ้ง ซึ่งจะเริ่มต้นดังต่อไปนี้

Analyze a menu item in a restaurant.

* The analysis should be brief and to the point.
* It should provide a clear statement of suitability for someone with
  specific dietary restrictions.
* It should reflect the person's tastes

## For example:

Taste-likes: I've a sweet-tooth
Taste-dislikes: Don't like onions or garlic
Suggestion: Onion soup
Analysis: it has cooked onions in it, which you don't like.
Recommendation: Avoid.

การอัปเดตนี้จะเรียกใช้ตัวอย่างนี้ได้อีกครั้งและสังเกตผลลัพธ์ที่ต่างกันมาก

Taste-likes: Cheese
Taste-dislikes: Can't eat eggs
Suggestion: Quiche Lorraine
Analysis: This dish contains eggs, which you can't eat.
Recommendation: Not suitable for you.

จากนั้นจะสามารถตรวจสอบความทันท่วงทีอีกครั้ง เพื่อทำความเข้าใจว่าเหตุใดการเปลี่ยนแปลงนี้จึงเกิดขึ้น ดังนี้

อินเทอร์เฟซผู้ใช้ LIT แสดงการวิเคราะห์ความทันสมัยในทันที

ในตัวอย่างนี้ "ไม่เหมาะสำหรับคุณ" ได้รับอิทธิพลจากหลักการ "ระบุคำชี้แจงที่ชัดเจนเกี่ยวกับความเหมาะสมสำหรับผู้ที่มีข้อจำกัดเกี่ยวกับอาหารที่ระบุ" และข้อความวิเคราะห์ที่ชัดเจนว่าอาหารจานนี้มีไข่ (สิ่งที่เรียกว่า "ห่วงโซ่ความคิด")

รวมทีมที่ไม่ใช่ทีมเทคนิคในการตรวจสอบโมเดลและการสำรวจ

ความสามารถในการตีความคือการทำงานเป็นทีม ครอบคลุมความเชี่ยวชาญด้านนโยบาย กฎหมาย และอื่นๆ ดังที่คุณเห็นแล้ว สื่อที่เป็นภาพและความสามารถในการโต้ตอบ ของ LIT ในการตรวจสอบความโดดเด่นและตัวอย่างการสำรวจสามารถช่วยให้ผู้มีส่วนเกี่ยวข้องต่างๆ แชร์และสื่อสารสิ่งที่ค้นพบได้ ซึ่งจะทําให้เพื่อนร่วมทีมมีความหลากหลายมากขึ้นสำหรับการสํารวจ ตรวจสอบ และแก้ไขข้อบกพร่องตามรูปแบบ การแสดงวิธีทางเทคนิคเหล่านี้จะช่วยส่งเสริมความเข้าใจเกี่ยวกับวิธีการทำงานของโมเดล นอกจากนี้ ความเชี่ยวชาญที่หลากหลายมากขึ้นในการทดสอบโมเดลขั้นต้นยังช่วยให้ค้นพบผลลัพธ์ที่ไม่พึงประสงค์ซึ่งปรับปรุงให้ดีขึ้นได้

สรุป

เมื่อพบตัวอย่างที่เป็นปัญหาในการประเมินโมเดล ให้นำตัวอย่างดังกล่าวไปไว้ใน LIT เพื่อแก้ไขข้อบกพร่อง เริ่มต้นโดยการวิเคราะห์หน่วยเนื้อหาที่สำคัญที่สุดซึ่งคุณคิดว่ามีความเกี่ยวข้องกับงานการสร้างรูปแบบอย่างมีเหตุผล ใช้การแสดงภาพเพื่อดูว่าโมเดลเข้าชมเนื้อหาพรอมต์อย่างถูกต้องหรือไม่ถูกต้อง จากนั้นจึงเจาะลึกลงในหน่วยเนื้อหาเล็กๆ เพื่ออธิบายเพิ่มเติมถึงพฤติกรรมที่ไม่ถูกต้องที่คุณเห็น เพื่อระบุการแก้ไขที่เป็นไปได้

แหล่งข้อมูลสำหรับนักพัฒนาแอป