LLM Компаратор

Параллельная оценка стала общей стратегией оценки качества и безопасности ответов на основе больших языковых моделей (LLM). Параллельное сравнение можно использовать для выбора между двумя разными моделями, двумя разными подсказками для одной и той же модели или даже двумя разными настройками модели. Однако анализ результатов параллельного сравнения вручную может оказаться обременительным и утомительным.

LLM Comparator — это веб-приложение с сопутствующей библиотекой Python , которое обеспечивает более эффективный и масштабируемый анализ параллельных оценок с помощью интерактивных визуализаций. LLM Comparator поможет вам:

  • Посмотрите , где различается производительность модели . Вы можете разделить ответы, чтобы определить подмножества оценочных данных, в которых выходные данные существенно различаются между двумя моделями.

  • Поймите, почему это отличается . Обычно существует политика, по которой оценивается производительность и соответствие модели. Параллельная оценка помогает автоматизировать оценку соответствия политике и дает обоснование того, какая модель, вероятно, более соответствует требованиям. LLM Comparator обобщает эти причины по нескольким темам и выделяет, какая модель лучше соответствует каждой теме.

  • Изучите , чем отличаются выходные данные модели . Вы можете дополнительно изучить, чем отличаются выходные данные двух моделей, с помощью встроенных и определяемых пользователем функций сравнения. Инструмент может выделять определенные закономерности в тексте, созданном моделями, обеспечивая четкую основу для понимания их различий.

Пример интерфейса LLM Comparator

Рисунок 1. Интерфейс LLM Comparator, показывающий сравнение модели Gemma Instruct 7B v1.1 с версией v1.0.

LLM Comparator помогает анализировать результаты параллельной оценки. Он визуально обобщает производительность модели с разных точек зрения, позволяя вам в интерактивном режиме проверять выходные данные отдельных моделей для более глубокого понимания.

Изучите LLM Comparator самостоятельно:

  • В этой демонстрации сравнивается производительность Gemma Instruct 7B v1.1 с Gemma Instruct 7B v1.0 в наборе данных Chatbot Arena Conversations .
  • Этот блокнот Colab использует библиотеку Python для выполнения небольшой параллельной оценки с использованием API Vertex AI и загружает результаты в ячейку приложения LLM Comparator.

Дополнительную информацию о LLM Comparator можно найти в исследовательской работе и репозитории GitHub .