ظهر التقييم جنبًا إلى جنب كاستراتيجية شائعة لتقييم جودة الردود الواردة من النماذج اللغوية الكبيرة (LLM) وأمانها. العرض جنبًا إلى جنب يمكن استخدام المقارنات للاختيار بين نموذجين مختلفين، أو الطلبات للنموذج نفسه، أو حتى تعديلين مختلفين لنموذج ما. ومع ذلك، قد يكون تحليل نتائج المقارنة جنبًا إلى جنب يدويًا عملية مملة ومعقدة.
أداة مقارنة "النموذج اللغوي الكبير" (LLM) هي تطبيق ويب يتضمّن مصاحبًا مكتبة Python توفّر تحليلاً أكثر فعالية وقابلية للتوسع من التقييمات جنبًا إلى جنب باستخدام التصورات التفاعلية. يساعدك أداة مقارنة LLM في ما يلي:
التعرّف على أوجه اختلاف أداء النموذج: يمكنك تقسيم الردود. لتحديد مجموعات فرعية من بيانات التقييم حيث تكون المخرجات بشكل مفيد بين نموذجين مختلفين.
فهم سبب الاختلاف: من الشائع أن تتضمّن السياسة أحكامًا تمنع استخدام نماذج معيّنة، ويتم تقييم أداء هذه النماذج ومدى امتثالها للسياسة. يساعد التقييم المقارن في التشغيل الآلي لتقييمات الامتثال للسياسة، كما يقدّم أسبابًا منطقية للنموذج الذي يُرجّح أن يكون أكثر امتثالاً. تلخّص أداة مقارنة النماذج اللغوية الكبيرة هذه الأسباب في عدّة مواضيع الذي يحدد النموذج الذي يتوافق بشكل أفضل مع كل موضوع.
فحص كيفية اختلاف مخرجات النموذج: يمكنك إجراء مزيد من التحقيق في كيفية تختلف مخرجات النموذجين من خلال النموذج المدمج ونموذج المستخدم ودوال المقارنة. يمكن للأداة إبراز أنماط معيّنة في النص الذي تم إنشاؤه من النماذج، ما يقدّم مرجعًا واضحًا لفهم الاختلافات بينهما.
الشكل 1: واجهة أداة مقارنة النماذج اللغوية الكبيرة (LLM) تعرض مقارنة بين نموذج Gemma Instruct 7B v1.1 والإصدار 1.0
يساعدك "مقارن النماذج اللغوية الكبيرة" في تحليل نتائج التقييم جنبًا إلى جنب. ويقدّم المخطّط مقارنة مرئية لأداء النموذج من زوايا متعدّدة، مع السماح لك بالاطّلاع على نتائج النموذج الفردية بشكل تفاعلي لفهمها بشكل أفضل.
استكشِف أداة مقارنة النماذج اللغوية الكبيرة بنفسك:
- يقارن هذا العرض التوضيحي بين أداء Gemma Instruct 7B v1.1 مقابل Gemma Instruct 7B v1.0 على مجموعة بيانات Chatbot Arena Conversations.
- تستخدم دفتر ملاحظات Colab هذا مكتبة Python لتشغيل ورقة التقييم جنبًا إلى جنب باستخدام واجهة برمجة تطبيقات Vertex AI، وتحميل نتائج إلى تطبيق مقارنة النماذج اللغوية الكبيرة في خلية.
للمزيد من المعلومات حول أداة مقارنة النماذج اللغوية الكبيرة، يمكنك الاطّلاع على الورقة البحثية مستودع GitHub