Yan yana değerlendirme, büyük dil modellerinden (LLM'ler) gelen yanıtların kalitesini ve güvenliğini değerlendirmek için yaygın bir strateji olarak ortaya çıkmıştır. Yan yana karşılaştırmalar, iki farklı model, aynı model için iki farklı istem veya hatta bir modelin iki farklı ayarı arasında seçim yapmak için kullanılabilir. Ancak yan yana karşılaştırma sonuçlarını manuel olarak analiz etmek zahmetli ve sıkıcı olabilir.
LLM Karşılaştırıcısı, tamamlayıcısı olan bir web uygulamasıdır. Daha etkili ve ölçeklenebilir analiz sağlayan Python kitaplığı etkileşimli görselleştirmeler içeren yan yana değerlendirmeler hazırlayın. LLM Comparator size şu konularda yardımcı olur:
Model performansının nerede farklı olduğunu görün: Yanıtları dilimleyerek, çıktıların iki model arasında anlamlı bir şekilde farklı olduğu değerlendirme verilerinin alt kümelerini belirleyebilirsiniz.
Farklılığın nedenlerini anlayın: Model performansının ve uygunluğunun değerlendirildiği bir politikanın olması yaygındır. Yan yana değerlendirme, politikaya uygunluğu otomatikleştirmeye yardımcı olur değerlendirebilir ve hangi modelin daha başarılı olacağına dair olması gerekir. LLM Karşılaştırıcı, bu nedenleri çeşitli temalar halinde özetler ve her temayla hangi modelin daha iyi uyum sağladığını vurgular.
Model çıkışlarının nasıl farklılaştığını inceleyin: Daha fazla araştırma için bu yerleşik ve kullanıcı tanımlı özellikler açısından, iki modelin çıktıları arasındaki farklar karşılaştırma fonksiyonlarıdır. Araç, metindeki belirli kalıpları vurgulayabilir ve bunların marka değerlerini anlamak için net bir dayanak noktası farklar olabilir.
Şekil 1. Gemma'nın karşılaştırmasını gösteren LLM Karşılaştırıcı arayüzü v1.0 için 7B v1.1 modeli talimatı verme
LLM Karşılaştırıcı, değerlendirme sonuçlarını yan yana analiz etmenize yardımcı olur. Model performansını birden çok açıdan görsel olarak özetler ve daha derin bir anlayış için model çıktılarını tek tek etkileşimli olarak incelemenize olanak tanır.
LLM Karşılaştırıcı'yı kendiniz keşfedin:
- Bu demo, Gemma Prompt 7B v1.1'in performansını karşılaştırır. Gemma Talimatlar 7B v1.0'a karşı Chatbot Arena Conversations veri kümesi.
- Bu Colab not defteri, Vertex AI API'yi kullanarak küçük bir yan yana değerlendirme yapmak için Python kitaplığını kullanır ve sonuçları bir hücredeki LLM Karşılaştırıcı uygulamasına yükler.
LLM Karşılaştırıcı hakkında daha fazla bilgi için araştırma makalesine ve GitHub deposuna göz atın.