כלי להערכה מבוסס-מודל שפה גדול (LLM) לצינורות עיבוד נתונים של RAG.
תיאור
הוא מספק מסגרת מבוססת-LLM להערכת הביצועים של מערכות RAG באמצעות קבוצה של מדדים שמותאמים לתחום האפליקציה שבו המערכת (מערכת RAG) פועלת. השתמשנו ב-Gemini Pro 1.0 מ-Google AI בתור ה-LLM שבו המערכת משתמשת. בנוסף, השתמשנו במודל הטמעת הנתונים (embedding) של Google AI כדי ליצור הטמעות של חלק מהמדדים.
מבוסס על
ללא
קבוצה
על ידי
llm-rag-eval
מאת
ארצות הברית
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],[],[],[]]