एलएलएम कंपैरेटर

लार्ज लैंग्वेज मॉडल (एलएलएम) से मिले जवाबों की क्वालिटी और सुरक्षा का आकलन करने के लिए, एक साथ कई तरीकों का इस्तेमाल करना एक आम रणनीति बन गई है. एक साथ तुलना करने की सुविधा का इस्तेमाल करके, दो अलग-अलग मॉडल, एक ही मॉडल के लिए दो अलग-अलग प्रॉम्प्ट या मॉडल की दो अलग-अलग ट्यूनिंग में से किसी एक को चुना जा सकता है. हालांकि, तुलना के नतीजों का मैन्युअल तौर पर, साथ-साथ विश्लेषण करना मुश्किल हो सकता है. उबाऊ लगता है.

एलएलएम कम्पेरेटर एक वेब ऐप्लिकेशन है. इसमें एक साथ काम करने वाली Python लाइब्रेरी होती है. इसकी मदद से, इंटरैक्टिव विज़ुअलाइज़ेशन की मदद से, एक-दूसरे के साथ तुलना करके किए गए आकलन का ज़्यादा असरदार और स्केलेबल विश्लेषण किया जा सकता है. LLM कंपरेटर की मदद से:

देखें कि कहां मॉडल की परफ़ॉर्मेंस अलग है: आप चाहें, तो अलग-अलग जवाबों में इवैलुएशन डेटा के सबसेट की पहचान करने के लिए, जहां सही तरीके से आउटपुट मिलते हैं दो मॉडल के बीच अंतर होता है.
जानें कि यह क्यों अलग है: एक ऐसी नीति होना सामान्य बात है किस मॉडल की परफ़ॉर्मेंस और अनुपालन का आकलन किया जाता है. एक साथ कई मॉडल की तुलना करके आकलन करने की सुविधा, नीति का पालन करने से जुड़े आकलन को ऑटोमेट करने में मदद करती है. साथ ही, यह बताती है कि कौनसा मॉडल नीति का ज़्यादा पालन करता है. एलएलएम कम्पेरेटर, इन वजहों को कई थीम में बताता है और यह हाइलाइट करता है कि कौनसा मॉडल हर थीम के साथ बेहतर तरीके से अलाइन होता है.
देखें कि मॉडल के आउटपुट कैसे अलग-अलग होते हैं: आपके पास यह जांच करने का विकल्प है कि तुलना करने के लिए पहले से मौजूद और उपयोगकर्ता के तय किए गए फ़ंक्शन की मदद से, दो मॉडल के आउटपुट कैसे अलग-अलग होते हैं. यह टूल, टेक्स्ट में खास पैटर्न को हाइलाइट कर सकता है इस दौरान, एआई मॉडल की मदद से, अंतर.

एलएलएम कंपैरेटर इंटरफ़ेस का उदाहरण

पहली इमेज. जेमा और जेमा की तुलना दिखाने वाला एलएलएम कंपैरेटर इंटरफ़ेस v1.0 वर्शन के मुकाबले 7B v1.1 मॉडल को निर्देश देना

एलएलएम कम्पेरेटर की मदद से, आकलन के नतीजों की एक साथ तुलना की जा सकती है. यह कई कोणों से मॉडल की परफ़ॉर्मेंस की खास जानकारी देखें. साथ ही, इस रिपोर्ट की मदद से, सभी मॉडल के आउटपुट का इंटरैक्टिव तरीक़े से विश्लेषण किया जा सकता है.

एलएलएम तुलना करने वाले टूल के बारे में जानें:

इस डेमो में Gemma Instruct 7B v1.1 की परफ़ॉर्मेंस की तुलना की गई है को Gemma Instruct 7B v1.0 के ख़िलाफ़ चैटबॉट अरीना कन्वर्सेशन का डेटासेट.
यह Colab notebook एक छोटे ब्राउज़र को चलाने के लिए, Python लाइब्रेरी का इस्तेमाल करता है Vertex AI API का इस्तेमाल करके, उनकी व्यक्तिगत तौर पर जांच की जाती है. साथ ही, खोज के नतीजे दिखाता है.

LLM कंपरेटर के बारे में ज़्यादा जानने के लिए, रिसर्च पेपर और GitHub repo देखें.