การประเมินแบบเปรียบเทียบได้กลายเป็นกลยุทธ์ที่พบบ่อยในการประเมินคุณภาพและความปลอดภัยของคำตอบจากโมเดลภาษาขนาดใหญ่ (LLM) คุณสามารถใช้การเปรียบเทียบแบบควบคู่กันเพื่อเลือกระหว่าง 2 รูปแบบที่แตกต่างกัน 2 พรอมต์ที่แตกต่างกันสําหรับรูปแบบเดียวกัน หรือแม้แต่การปรับแต่ง 2 แบบของรูปแบบหนึ่งๆ อย่างไรก็ตาม การวิเคราะห์ผลการเปรียบเทียบโดยเทียบเคียงกันด้วยตนเองอาจเป็นเรื่องยุ่งยากและ น่าเบื่อหน่าย
ตัวเปรียบเทียบ LLM เป็นเว็บแอปที่ใช้ร่วมกัน ไลบรารี Python ที่ช่วยให้การวิเคราะห์รองรับการปรับขนาดมีประสิทธิภาพมากขึ้น การประเมินเทียบเคียงกันด้วยการแสดงภาพแบบอินเทอร์แอกทีฟ เครื่องมือเปรียบเทียบ LLM ช่วยคุณในเรื่องต่อไปนี้
ดูจุดที่ประสิทธิภาพโมเดลแตกต่างกัน: คุณแบ่งคำตอบต่างๆ ได้ เพื่อระบุข้อมูลการประเมินชุดย่อยที่มีผลลัพธ์ที่มีความหมาย แตกต่างกันระหว่าง 2 รุ่น
ทำความเข้าใจเหตุผลว่าความแตกต่างนี้: เป็นเรื่องปกติที่จะมีนโยบายต่อต้าน ซึ่งจะประเมินประสิทธิภาพของโมเดลและการปฏิบัติตามข้อกำหนด การประเมินแบบเทียบเคียงช่วยให้การปฏิบัติตามนโยบายเป็นไปโดยอัตโนมัติ ประเมินและระบุเหตุผลของโมเดลที่น่าจะมีประสิทธิภาพมากกว่า เป็นไปตามข้อกำหนด LLM Comparator จะสรุปเหตุผลเหล่านี้ออกเป็นธีมต่างๆ และ ไฮไลต์รูปแบบที่สอดคล้องกับแต่ละธีมมากกว่า
ตรวจสอบความแตกต่างของเอาต์พุตโมเดล: คุณสามารถตรวจสอบเพิ่มเติมเกี่ยวกับวิธี เอาต์พุตจาก 2 รุ่นจะแตกต่างกันตามที่ติดตั้งมาในตัวและที่ผู้ใช้กำหนด ของ Google เครื่องมือนี้สามารถไฮไลต์รูปแบบที่เฉพาะเจาะจงในข้อความที่โมเดลสร้างขึ้น ซึ่งจะเป็นจุดยึดที่ชัดเจนในการทําความเข้าใจความแตกต่างของโมเดล
รูปที่ 1 อินเทอร์เฟซเครื่องมือเปรียบเทียบ LLM ที่แสดงการเปรียบเทียบโมเดล GemmaInstruct 7B v1.1 กับ v1.0
เครื่องมือเปรียบเทียบ LLM ช่วยให้คุณวิเคราะห์ผลการทดสอบแบบแสดงคู่กันได้ ทั้งนี้ สรุปประสิทธิภาพของโมเดลจากหลายๆ มุมเป็นภาพ ในขณะเดียวกันก็ช่วยให้คุณ ตรวจสอบเอาต์พุตของโมเดลแต่ละรายการแบบอินเทอร์แอกทีฟเพื่อความเข้าใจที่ลึกซึ้งยิ่งขึ้น
สำรวจ LLM Comparator ด้วยตนเอง
- การสาธิตนี้เปรียบเทียบประสิทธิภาพของ Gemma Instruct 7B v1.1 กับ Gemma Instruct 7B v1.0 ในชุดข้อมูลการสนทนาใน Chatbot Arena
- โน้ตบุ๊ก Colab นี้ใช้ไลบรารี Python เพื่อเรียกใช้การประเมินแบบเปรียบเทียบกันเล็กน้อยโดยใช้ Vertex AI API และโหลดผลลัพธ์ลงในแอป LLM Comparator ในเซลล์
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเปรียบเทียบ LLM โปรดดูเอกสารงานวิจัยและ ที่เก็บของ GitHub