Guía de RAG de IA en las redes de perímetro

El SDK de RAG de AI Edge proporciona los componentes fundamentales para construir una canalización de Generación mejorada por recuperación (RAG) con la API de LLM Inference. Una canalización de RAG proporciona a los LLM acceso a los datos proporcionados por el usuario, que pueden incluir información actualizada, sensible o específica del dominio. Con las capacidades adicionales de recuperación de información de la RAG, los LLMs pueden generar respuestas más precisas y conscientes del contexto para casos de uso específicos.

El SDK de RAG de AI Edge está disponible para Android y se puede ejecutar completamente en el dispositivo. Para comenzar a usar el SDK, sigue la guía de Android, que te explica cómo implementar de forma básica una aplicación de ejemplo con RAG.

Canalización de RAG

La configuración de una canalización de RAG con el SDK de AI Edge RAG contiene los siguientes pasos clave:

  1. Importar datos: Proporciona los datos de texto que el LLM usará cuando genere resultados.
  2. Divide y crea un índice de los datos: Divide los datos en fragmentos pequeños para indexarlos en una base de datos.
  3. Genera embeddings: Usa un generador de embeddings para vectorizar los fragmentos y almacenarlos en una base de datos de vectores.
  4. Recuperar información: Define cómo se identifica y recupera la información pertinente para responder a las instrucciones del usuario. Para una instrucción determinada, el componente de recuperación busca en la base de datos de vectores para identificar la información pertinente.
  5. Generar texto con LLM: Usa un modelo de lenguaje grande para generar texto de salida según la información recuperada de la base de datos de vectores.

Módulos clave

El SDK de AI Edge RAG proporciona los siguientes módulos y APIs clave para la canalización de RAG:

  • Modelos de lenguaje: Son los modelos de LLM con API de instrucciones abiertas, ya sea locales (en el dispositivo) o basados en el servidor. La API se basa en la interfaz LanguageModel.
  • Modelos de embeddings de texto: Convierten texto estructurado y no estructurado en vectores de embedding para la búsqueda semántica. La API se basa en la interfaz Embedder.
  • Almacenes de vectores: El almacén de vectores contiene los embeddings y los metadatos derivados de los fragmentos de datos. Se puede consultar para obtener fragmentos similares o coincidencias exactas. La API se basa en la interfaz VectorStore.
  • Memoria semántica: Sirve como un recuperador semántico para recuperar los fragmentos más relevantes de los k primeros resultados dada una consulta. La API se basa en la interfaz de SemanticMemory.
  • Fragmentación de texto: Divide los datos del usuario en fragmentos más pequeños para facilitar la indexación. La API se basa en la interfaz TextChunker.

El SDK proporciona cadenas, que combinan varios componentes de RAG en una sola canalización. Puedes usar cadenas para coordinar modelos de recuperación y consulta. La API se basa en la interfaz Chain. Para comenzar, prueba la cadena Retrieval and Inference o la Retrieval.