مقایسه کننده LLM

ارزیابی جانبی به عنوان یک استراتژی مشترک برای ارزیابی کیفیت و ایمنی پاسخ‌ها از مدل‌های زبان بزرگ (LLM) پدیدار شده است. از مقایسه های کنار هم می توان برای انتخاب بین دو مدل مختلف، دو دستور مختلف برای یک مدل یا حتی دو تنظیم متفاوت از یک مدل استفاده کرد. با این حال، تجزیه و تحلیل دستی نتایج مقایسه کنار هم می تواند دست و پا گیر و خسته کننده باشد.

LLM Comparator یک برنامه وب با کتابخانه پایتون همراه است که تجزیه و تحلیل موثرتر و مقیاس پذیر ارزیابی های جانبی را با تجسم های تعاملی امکان پذیر می کند. LLM Comparator به شما کمک می کند:

  • ببینید عملکرد مدل در کجا متفاوت است : می‌توانید پاسخ‌ها را برای شناسایی زیرمجموعه‌های داده‌های ارزیابی که در آن خروجی‌ها به طور معناداری بین دو مدل متفاوت است، تقسیم کنید.

  • درک چرایی تفاوت آن : داشتن خط مشی ای که بر اساس آن عملکرد و انطباق مدل ارزیابی می شود، امری رایج است. ارزیابی جانبی به خودکارسازی ارزیابی‌های انطباق با خط‌مشی کمک می‌کند و دلایل منطقی را ارائه می‌کند که کدام مدل احتمالاً مطابقت بیشتری دارد. LLM Comparator این دلایل را در چندین موضوع خلاصه می کند و مشخص می کند که کدام مدل با هر موضوع هماهنگ تر است.

  • بررسی تفاوت خروجی های مدل : می توانید بیشتر بررسی کنید که چگونه خروجی های دو مدل از طریق توابع مقایسه داخلی و تعریف شده توسط کاربر متفاوت است. این ابزار می‌تواند الگوهای خاصی را در متنی که مدل‌ها تولید می‌کنند برجسته کند و لنگر واضحی برای درک تفاوت‌های آنها ارائه دهد.

نمونه ای از رابط مقایسه کننده LLM

شکل 1. رابط مقایسه کننده LLM که مقایسه مدل Gemma Instruct 7B v1.1 را در مقابل v1.0 نشان می دهد.

LLM Comparator به شما کمک می کند تا نتایج ارزیابی کنار هم را تجزیه و تحلیل کنید. به صورت بصری عملکرد مدل را از زوایای مختلف خلاصه می‌کند، در حالی که به شما امکان می‌دهد به صورت تعاملی خروجی‌های مدل را برای درک عمیق‌تر بررسی کنید.

مقایسه کننده LLM را برای خودتان کاوش کنید:

  • این نسخه نمایشی عملکرد Gemma Instruct 7B v1.1 را با Gemma Instruct 7B v1.0 در مجموعه داده Chatbot Arena Conversations مقایسه می کند.
  • این نوت بوک Colab از کتابخانه Python برای اجرای یک ارزیابی کوچک کنار هم با استفاده از Vertex AI API استفاده می کند و نتایج را در برنامه LLM Comparator در یک سلول بارگیری می کند.

برای اطلاعات بیشتر درباره LLM Comparator، مقاله تحقیقاتی و مخزن GitHub را بررسی کنید.