Leitfaden für RAGs für KI-Edge

Das AI Edge RAG SDK bietet die grundlegenden Komponenten zum Erstellen einer RAG-Pipeline (Retrieval Augmented Generation) mit der LLM Inference API. Eine RAG-Pipeline ermöglicht LLMs den Zugriff auf vom Nutzer bereitgestellte Daten, die aktualisierte, vertrauliche oder domänenspezifische Informationen enthalten können. Mit den zusätzlichen Funktionen zum Abrufen von Informationen aus RAG können LLMs genauere und kontextbezogene Antworten für bestimmte Anwendungsfälle generieren.

Das AI Edge RAG SDK ist für Android verfügbar und kann vollständig auf dem Gerät ausgeführt werden. Folgen Sie der Android-Anleitung, um das SDK zu verwenden. Dort wird eine grundlegende Implementierung einer Beispielanwendung mit RAG beschrieben.

RAG-Pipeline

Die Einrichtung einer RAG-Pipeline mit dem AI Edge RAG SDK umfasst die folgenden wichtigen Schritte:

  1. Daten importieren: Stellen Sie die Textdaten bereit, die das LLM bei der Ausgabe verwendet.
  2. Daten aufteilen und indexieren: Teilen Sie die Daten in kleine Blöcke auf, um sie in einer Datenbank zu indexieren.
  3. Einbettungen generieren: Verwenden Sie einen Embedder, um die Blöcke zu vektorisieren und in einer Vektordatenbank zu speichern.
  4. Informationen abrufen: Definieren Sie, wie relevante Informationen identifiziert und abgerufen werden, um auf Nutzerprompts zu reagieren. Für einen bestimmten Prompt durchsucht die Abrufkomponente die Vektordatenbank, um relevante Informationen zu finden.
  5. Text mit LLM generieren: Verwenden Sie ein Large Language Model, um Ausgabetext basierend auf den aus der Vektordatenbank abgerufenen Informationen zu generieren.

Wichtige Module

Das AI Edge RAG SDK bietet die folgenden wichtigen Module und APIs für die RAG-Pipeline:

  • Sprachmodelle: Die LLM-Modelle mit der Open-Prompt-API, entweder lokal (auf dem Gerät) oder serverbasiert. Die API basiert auf der LanguageModel -Schnittstelle.
  • Modelle für Texteinbettungen: Konvertieren Sie strukturierte und unstrukturierte Texte in Einbettungsvektoren für die semantische Suche. Die API basiert auf der Embedder Schnittstelle.
  • Vektorspeicher: Der Vektorspeicher enthält die Einbettungen und Metadaten , die aus Datenblöcken abgeleitet wurden. Er kann abgefragt werden, um ähnliche Blöcke oder genaue Übereinstimmungen zu erhalten. Die API basiert auf der VectorStore Schnittstelle.
  • Semantischer Speicher: Dient als semantischer Abrufer, um die k wichtigsten relevanten Blöcke für eine Abfrage abzurufen. Die API basiert auf der SemanticMemory Schnittstelle.
  • Text-Chunking: Teilt Nutzerdaten in kleinere Teile auf, um die Indexierung zu erleichtern. Die API basiert auf der TextChunker -Schnittstelle.

Das SDK bietet Chains, mit denen mehrere RAG-Komponenten in einer einzigen Pipeline kombiniert werden. Mit Chains können Sie Abruf- und Abfragemodelle orchestrieren. Die API basiert auf der Chain Schnittstelle. Probieren Sie die Retrieval- und Inference Chain oder die Retrieval Chain aus.