Guide RAG AI Edge

Le SDK RAG AI Edge fournit les composants de base pour créer un pipeline de génération augmentée par récupération (RAG) avec l'API d'inférence LLM. Un pipeline RAG fournit aux LLM un accès aux données fournies par l'utilisateur, qui peuvent inclure des informations à jour, sensibles ou spécifiques au domaine. Grâce aux fonctionnalités de récupération d'informations supplémentaires de RAG, les LLM peuvent générer des réponses plus précises et plus sensibles au contexte pour des cas d'utilisation spécifiques.

Le SDK AI Edge RAG est disponible pour Android et peut être entièrement exécuté sur l'appareil. Commencez à utiliser le SDK en suivant le guide Android, qui vous explique comment implémenter de manière basique un exemple d'application à l'aide de RAG.

Pipeline RAG

La configuration d'un pipeline RAG avec le SDK RAG AI Edge comprend les étapes clés suivantes:

Importez des données: fournissez les données textuelles que le LLM utilisera lors de la génération de la sortie.
Diviser et indexer les données: divisez les données en petits blocs pour les indexer dans une base de données.
Générer des embeddings: utilisez un outil d'embedding pour vectoriser les segments à stocker dans une base de données vectorielle.
Récupérer des informations: définissez la manière dont les informations pertinentes sont identifiées et récupérées pour répondre aux requêtes des utilisateurs. Pour une requête donnée, le composant de récupération recherche dans la base de données vectorielle les informations pertinentes.
Générer du texte avec un LLM: utilisez un grand modèle de langage pour générer du texte de sortie en fonction des informations récupérées dans la base de données de vecteurs.

Modules clés

Le SDK AI Edge RAG fournit les principaux modules et API suivants pour le pipeline RAG:

Modèles de langage: modèles LLM avec API à requête ouverte, locaux (sur l'appareil) ou basés sur un serveur. L'API est basée sur l'interface LanguageModel.
Modèles d'embedding de texte: convertissez le texte structuré et non structuré en vecteurs d'embedding pour la recherche sémantique. L'API est basée sur l'interface Embedder.
Magasins de vecteurs: le magasin de vecteurs contient les embeddings et les métadonnées dérivées des blocs de données. Vous pouvez l'interroger pour obtenir des segments similaires ou des correspondances exactes. L'API est basée sur l'interface VectorStore.
Mémoire sémantique: sert de récupérateur sémantique pour récupérer les segments les plus pertinents parmi les k premiers en fonction d'une requête. L'API est basée sur l'interface SemanticMemory.
Division du texte en blocs: permet de diviser les données utilisateur en éléments plus petits pour faciliter l'indexation. L'API est basée sur l'interface TextChunker.

Le SDK fournit des chaînes, qui combinent plusieurs composants RAG dans un seul pipeline. Vous pouvez utiliser des chaînes pour orchestrer les modèles de récupération et de requête. L'API est basée sur l'interface Chain. Pour commencer, essayez la chaîne de récupération et d'inférence ou la chaîne de récupération.