llm-rag-eval
RAG パイプライン用の大規模言語モデルを活用したエバリュエータ。
機能
LLM ベースのフレームワークを提供し、RAG システムが動作するアプリケーション ドメイン用に最適化された一連の指標を使用して、RAG システムのパフォーマンスを評価します。このフレームワークで使用する LLM として、Google AI の Gemini Pro 1.0 を使用しています。また、Google AI エンベディング モデルを使用して、一部の指標のエンベディングも生成しています。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["必要な情報がない","missingTheInformationINeed","thumb-down"],["複雑すぎる / 手順が多すぎる","tooComplicatedTooManySteps","thumb-down"],["最新ではない","outOfDate","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["サンプル / コードに問題がある","samplesCodeIssue","thumb-down"],["その他","otherDown","thumb-down"]],[],[],[]]