Uso de herramientas con la API de Gemini

Las herramientas amplían las capacidades de los modelos de Gemini, lo que les permite realizar acciones en el mundo, acceder a información en tiempo real y llevar a cabo tareas computacionales complejas. Los modelos pueden usar herramientas en interacciones estándar de solicitud y respuesta, y en sesiones de transmisión en tiempo real a través de la API en vivo.

La API de Gemini proporciona un conjunto de herramientas integradas y completamente administradas que están optimizadas para los modelos de Gemini, o bien puedes definir herramientas personalizadas con la llamada a función.

Herramientas integradas disponibles

Herramienta Descripción Casos de uso
Búsqueda de Google Fundamenta las respuestas en eventos actuales y hechos de la Web para reducir las alucinaciones. - Responder preguntas sobre eventos recientes
- Verificar datos con diversas fuentes
Google Maps Crea asistentes que reconocen la ubicación y pueden encontrar lugares, obtener instrucciones sobre cómo llegar y proporcionar un contexto local enriquecido. - Planificar itinerarios de viaje con varias paradas
- Encontrar empresas locales según los criterios del usuario
Ejecución de código Permite que el modelo escriba y ejecute código en Python para resolver problemas matemáticos o procesar datos con precisión. - Resolver ecuaciones matemáticas complejas
- Procesar y analizar datos de texto con precisión
Contexto de URL Dirige el modelo para que lea y analice el contenido de páginas web o documentos específicos. - Responder preguntas basadas en URLs o documentos específicos
- Recuperar información de diferentes páginas web
Uso de la computadora (vista previa) Permite que Gemini vea una pantalla y genere acciones para interactuar con las IU de los navegadores web (ejecución del cliente). - Automatizar flujos de trabajo repetitivos basados en la Web
- Probar interfaces de usuario de aplicaciones web
Búsqueda de archivos Indexa y busca tus propios documentos para habilitar la generación mejorada por recuperación (RAG). - Búsqueda en manuales técnicos
- Respuesta a preguntas sobre datos de propiedad

Consulta la página de precios para obtener detalles sobre los costos asociados con herramientas específicas.

Cómo funciona la ejecución de herramientas

Las herramientas permiten que el modelo solicite acciones durante una conversación. El flujo difiere según si la herramienta es integrada (administrada por Google) o personalizada (administrada por ti).

Flujo de herramientas integradas

En el caso de las herramientas integradas, como la Búsqueda de Google o la Ejecución de código, todo el proceso se realiza en una sola llamada a la API:

  1. envías una instrucción: "¿Cuál es la raíz cuadrada del precio de las acciones más reciente de GOOG?".
  2. Gemini decide que necesita herramientas y las ejecuta en los servidores de Google (p.ej., busca el precio de las acciones y, luego, ejecuta código de Python para calcular la raíz cuadrada).
  3. Gemini envía la respuesta final basada en los resultados de la herramienta.

Flujo de herramientas personalizado (llamada a función)

En el caso de las herramientas personalizadas y el uso de la computadora, tu aplicación controla la ejecución:

  1. envías una instrucción junto con declaraciones de funciones (herramientas).
  2. Gemini podría enviar un JSON estructurado para llamar a una función específica (por ejemplo, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. ejecutas la función en tu aplicación o entorno.
  4. envías los resultados de la función a Gemini.
  5. Gemini usa los resultados para generar una respuesta final o invocar otra herramienta.

Obtén más información en la guía de llamadas a funciones.

Comparación entre los resultados estructurados y las llamadas a funciones

Gemini ofrece dos métodos para generar resultados estructurados. Usa Llamadas a funciones cuando el modelo necesite realizar un paso intermedio conectándose a tus propias herramientas o sistemas de datos. Usa Salidas estructuradas cuando necesites estrictamente que la respuesta final del modelo se ajuste a un esquema específico, por ejemplo, para renderizar una IU personalizada.

Creación de agentes

Los agentes son sistemas que usan modelos y herramientas para completar tareas de varios pasos. Si bien Gemini proporciona las capacidades de razonamiento (el "cerebro") y las herramientas esenciales (las "manos"), a menudo necesitas un framework de orquestación para administrar la memoria del agente, planificar bucles y realizar encadenamientos de herramientas complejos.

Gemini se integra con los principales frameworks de agentes de código abierto:

  • LangChain / LangGraph: Crea flujos de aplicaciones complejos y con estado, y sistemas multiagente con estructuras de grafos.
  • LlamaIndex: Conecta agentes de Gemini a tus datos privados para flujos de trabajo mejorados con RAG.
  • CrewAI: Coordina agentes de IA autónomos que interpretan roles y colaboran.
  • Vercel AI SDK: Compila interfaces de usuario y agentes potenciados por IA en JavaScript o TypeScript.
  • ADK de Google: Es un framework de código abierto para compilar y coordinar agentes de IA interoperables.