Evaluador potenciado por modelos de lenguaje extensos para canalizaciones de RAG.
Qué hace
Proporciona un marco de trabajo basado en LLM para evaluar el rendimiento de los sistemas de RAG con un conjunto de métricas optimizadas para el dominio de aplicación en el que opera (el sistema de RAG). Usamos Gemini Pro 1.0 de Google AI como el LLM que usa el framework. También usamos el modelo de incorporación de la IA de Google para generar incorporaciones para algunas de las métricas.
Con la tecnología de
Ninguno
Equipo
De
llm-rag-eval
De
Estados Unidos
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Falta la información que necesito","missingTheInformationINeed","thumb-down"],["Muy complicado o demasiados pasos","tooComplicatedTooManySteps","thumb-down"],["Desactualizado","outOfDate","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Problema con las muestras o los códigos","samplesCodeIssue","thumb-down"],["Otro","otherDown","thumb-down"]],[],[],[]]