Usar ferramentas com a API Gemini

As ferramentas ampliam as capacidades dos modelos do Gemini, permitindo que eles realizem ações no mundo, acessem informações em tempo real e executem tarefas computacionais complexas. Os modelos podem usar ferramentas em interações padrão de solicitação-resposta e em sessões de streaming em tempo real pela API Live.

A API Gemini oferece um conjunto de ferramentas integradas e totalmente gerenciadas otimizadas para modelos do Gemini. Também é possível definir ferramentas personalizadas usando a chamada de função.

Ferramentas integradas disponíveis

Ferramenta Descrição Casos de uso
Pesquisa Google Embase as respostas em fatos e eventos atuais da Web para reduzir as alucinações. - Responder a perguntas sobre eventos recentes
- Verificar fatos com diversas fontes
Google Maps Crie assistentes com reconhecimento de local que podem encontrar lugares, receber rotas e fornecer um contexto local avançado. - Planejar itinerários de viagem com várias paradas
- Encontrar empresas locais com base nos critérios do usuário
Execução de código Permita que o modelo escreva e execute código Python para resolver problemas de matemática ou processar dados com precisão. - Resolver equações matemáticas complexas
- Processar e analisar dados de texto com precisão
Contexto do URL Direcione o modelo para ler e analisar conteúdo de páginas da Web ou documentos específicos. - Responder perguntas com base em URLs ou documentos específicos
- Recuperar informações em diferentes páginas da Web
Uso do computador (prévia) Permitir que o Gemini veja uma tela e gere ações para interagir com interfaces de navegadores da Web (execução do lado do cliente). - Automatizar fluxos de trabalho repetitivos baseados na Web
- Testar interfaces de usuário de aplicativos da Web
Pesquisa de arquivos Indexe e pesquise seus próprios documentos para ativar a geração aumentada de recuperação (RAG). - Pesquisa de manuais técnicos
- Resposta a perguntas sobre dados próprios

Consulte a página de preços para saber mais sobre os custos associados a ferramentas específicas.

Como funciona a execução de ferramentas

Com as ferramentas, o modelo pode solicitar ações durante uma conversa. O fluxo varia dependendo se a ferramenta é integrada (gerenciada pelo Google) ou personalizada (gerenciada por você).

Fluxo de ferramentas integradas

Para ferramentas integradas, como a Pesquisa Google ou a execução de código, todo o processo acontece em uma única chamada de API:

  1. Você envia um comando: "Qual é a raiz quadrada do preço mais recente das ações da GOOG?"
  2. O Gemini decide que precisa de ferramentas e as executa nos servidores do Google (por exemplo, pesquisa o preço das ações e executa o código Python para calcular a raiz quadrada).
  3. O Gemini envia a resposta final com base nos resultados da ferramenta.

Fluxo de ferramenta personalizada (chamada de função)

Para ferramentas personalizadas e uso do computador, seu aplicativo processa a execução:

  1. Você envia um comando com declarações de funções (ferramentas).
  2. O Gemini pode enviar um JSON estruturado para chamar uma função específica (por exemplo, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Você executa a função no aplicativo ou ambiente.
  4. Você envia os resultados da função de volta para o Gemini.
  5. O Gemini usa os resultados para gerar uma resposta final ou outra chamada de ferramenta.

Saiba mais no guia de chamada de função.

Saídas estruturadas x chamada de função

O Gemini oferece dois métodos para gerar saídas estruturadas. Use a chamada de função quando o modelo precisar realizar uma etapa intermediária conectando-se às suas próprias ferramentas ou sistemas de dados. Use Saídas estruturadas quando precisar que a resposta final do modelo siga um esquema específico, como para renderizar uma interface personalizada.

Saídas estruturadas com ferramentas

É possível combinar saídas estruturadas com ferramentas integradas para garantir que as respostas do modelo embasadas em dados ou cálculos externos ainda sigam um esquema estrito.

Consulte Saídas estruturadas com ferramentas para exemplos de código.

Como criar agentes

Os agentes são sistemas que usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini ofereça as capacidades de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes você precisa de uma estrutura de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.

O Gemini se integra aos principais frameworks de agentes de código aberto:

  • LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagente usando estruturas de grafo.
  • LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
  • CrewAI: orquestre agentes de IA autônomos e colaborativos de interpretação de papéis.
  • SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
  • ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.