ערכת ה-SDK של AI Edge RAG מספקת את הרכיבים הבסיסיים לבניית צינור (pipeline) של שליפה מוגברת גנרטיבית (RAG) באמצעות LLM Inference API. צינור RAG מספק למודלים של LLM גישה לנתונים שסופקו על ידי משתמשים, שיכולים לכלול מידע מעודכן, רגיש או ספציפי לתחום. היכולות הנוספות של RAG לאחזור מידע מאפשרות למודלים של שפה גדולה ליצור תשובות מדויקות יותר שמתחשבות בהקשר, במקרים ספציפיים של שימוש.
ערכת ה-SDK של AI Edge RAG זמינה ל-Android ואפשר להריץ אותה באופן מלא במכשיר. כדי להתחיל להשתמש ב-SDK, צריך לפעול לפי המדריך ל-Android, שכולל הסבר על הטמעה בסיסית של אפליקציה לדוגמה באמצעות RAG.
RAG Pipeline
ההגדרה של צינור RAG באמצעות AI Edge RAG SDK כוללת את השלבים העיקריים הבאים:
- ייבוא נתונים: מספקים את הנתונים הטקסטואליים שבהם ה-LLM ישתמש כשייצור פלט.
- פיצול הנתונים והוספה שלהם לאינדקס: פיצול הנתונים לחלקים קטנים כדי להוסיף אותם לאינדקס במסד נתונים.
- יצירת הטמעות: משתמשים בטכנולוגיית הטמעה כדי להפוך את המקטעים לווקטורים ולאחסן אותם במסד נתונים וקטורי.
- אחזור מידע: הגדרה של אופן הזיהוי והאחזור של מידע רלוונטי כדי להשיב להנחיות של המשתמשים. עבור הנחיה נתונה, רכיב האחזור מחפש במסד הנתונים הווקטורי כדי לזהות מידע רלוונטי.
- יצירת טקסט באמצעות LLM: שימוש במודל שפה גדול כדי ליצור טקסט פלט על סמך המידע שאוחזר ממסד הנתונים הווקטורי.
מודולים מרכזיים
ערכת AI Edge RAG SDK מספקת את המודולים וממשקי ה-API החשובים הבאים לצינור RAG:
- מודלים של שפה: מודלים של LLM עם API של הנחיות פתוחות, מקומיים (במכשיר) או מבוססי-שרת. ממשק ה-API מבוסס על הממשק LanguageModel.
- מודלים להטמעת טקסט: המרת טקסט מובנה ולא מובנה לווקטורים להטמעה לצורך חיפוש סמנטי. ה-API מבוסס על הממשק Embedder.
- מאגרי וקטורים: מאגר הווקטורים מכיל את ההטמעות והמטא-נתונים שנגזרים מחלקי נתונים. אפשר להשתמש בשאילתה כדי לקבל נתחים דומים או התאמות מדויקות. ממשק ה-API מבוסס על ממשק VectorStore.
- זיכרון סמנטי: משמש לאחזור סמנטי של k החלקים הרלוונטיים ביותר בהינתן שאילתה. ה-API מבוסס על הממשק SemanticMemory.
- חלוקת הטקסט לחלקים: חלוקת נתוני המשתמשים לחלקים קטנים יותר כדי להקל על יצירת אינדקס. ה-API מבוסס על הממשק TextChunker.
ה-SDK מספק שרשראות שמשלבות כמה רכיבי RAG בצינור אחד. אפשר להשתמש בשרשרות כדי לתזמן אחזור של מודלים ושאילתות. ה-API מבוסס על ממשק Chain. כדי להתחיל, אפשר לנסות את שרשרת השליפה וההסקה או את שרשרת השליפה.