מדריך RAG ל-AI Edge

‫AI Edge RAG SDK מספק את הרכיבים הבסיסיים לבניית צינור (pipeline) של Retrieval-Augmented Generation (יצירה משולבת-אחזור, RAG) באמצעות LLM Inference API. צינור RAG מספק למודלים של LLM גישה לפרטים שהמשתמשים סיפקו (UPD), שיכולים לכלול מידע מעודכן, רגיש או ספציפי לתחום. היכולות הנוספות של אחזור מידע (RAG) מאפשרות למודלים של שפה גדולה (LLM) ליצור תשובות מדויקות יותר שמתאימות להקשר של תרחישי שימוש ספציפיים.

ערכת ה-SDK של AI Edge RAG זמינה ל-Android ואפשר להריץ אותה באופן מלא במכשיר. כדי להתחיל להשתמש ב-SDK, צריך לפעול לפי המדריך ל-Android, שכולל הסבר על הטמעה בסיסית של אפליקציה לדוגמה באמצעות RAG.

RAG Pipeline

ההגדרה של צינור RAG באמצעות AI Edge RAG SDK כוללת את השלבים העיקריים הבאים:

  1. ייבוא נתונים: מספקים את הנתונים הטקסטואליים שבהם ה-LLM ישתמש כשייצור פלט.
  2. פיצול הנתונים והוספה שלהם לאינדקס: פיצול הנתונים לחלקים קטנים כדי להוסיף אותם לאינדקס במסד נתונים.
  3. יצירת הטמעות: משתמשים בכלי להטמעה כדי ליצור וקטורים של חלקי הטקסט ולאחסן אותם במסד נתונים של וקטורים.
  4. אחזור מידע: הגדרה של אופן הזיהוי והאחזור של מידע רלוונטי כדי לתת מענה להנחיות של המשתמשים. עבור הנחיה נתונה, רכיב האחזור מחפש במסד הנתונים הווקטורי כדי לזהות מידע רלוונטי.
  5. יצירת טקסט באמצעות LLM: שימוש במודל שפה גדול כדי ליצור טקסט פלט על סמך המידע שאוחזר ממסד הנתונים הווקטורי.

מודולים מרכזיים

ערכת AI Edge RAG SDK מספקת את המודולים וממשקי ה-API העיקריים הבאים לצינור RAG:

  • מודלים של שפה: מודלים של LLM עם API של הנחיות פתוחות, מקומיים (במכשיר) או מבוססי-שרת. ממשק ה-API מבוסס על הממשק LanguageModel.
  • מודלים להטמעת טקסט: המרת טקסט מובנה ולא מובנה לווקטורים להטמעה לצורך חיפוש סמנטי. ה-API מבוסס על הממשק Embedder.
  • מאגרי וקטורים: מאגר הווקטורים מכיל את ההטמעות והמטא-נתונים שנגזרים מחלקי נתונים. אפשר להריץ עליו שאילתות כדי לקבל נתחים דומים או התאמות מדויקות. ממשק ה-API מבוסס על ממשק VectorStore.
  • זיכרון סמנטי: משמש כרכיב מאחזר סמנטי לאחזור k החלקים הרלוונטיים ביותר בהינתן שאילתה. ה-API מבוסס על הממשק SemanticMemory.
  • חלוקת טקסט לחלקים: חלוקת נתוני המשתמשים לחלקים קטנים יותר כדי להקל על יצירת אינדקס. ה-API מבוסס על הממשק TextChunker.

ה-SDK מספק שרשראות שמשלבות כמה רכיבי RAG בצינור אחד. אפשר להשתמש בשרשרות כדי לתזמן אחזור של מודלים ושאילתות. ממשק ה-API מבוסס על ממשק Chain. כדי להתחיל, אפשר לנסות את שרשרת השליפה וההסקת המסקנות או את שרשרת השליפה.