Usar ferramentas e agentes com a API Gemini

As ferramentas e os agentes ampliam os recursos dos modelos do Gemini, permitindo que eles realizem ações no mundo real, acessem informações em tempo real e executem tarefas computacionais complexas. Os modelos podem usar ferramentas em interações padrão de solicitação-resposta e em sessões de streaming em tempo real usando a API Live.

Ferramentas são recursos específicos (como a Pesquisa Google ou a execução de código) que um modelo pode usar para responder a consultas.
Os agentes são sistemas que podem planejar, executar e sintetizar tarefas de várias etapas para alcançar uma meta do usuário.

A API Gemini oferece um conjunto de ferramentas e agentes integrados totalmente gerenciados otimizados para modelos do Gemini. Também é possível definir ferramentas personalizadas usando a chamada de função.

Ferramentas integradas disponíveis

Ferramenta	Descrição	Casos de uso
Pesquisa Google	Embase as respostas em fatos e eventos atuais da Web para reduzir as alucinações.	- Responder a perguntas sobre eventos recentes - Verificar fatos com diversas fontes
Google Maps	Crie assistentes com reconhecimento de local que podem encontrar lugares, receber rotas e fornecer um contexto local avançado.	- Planejar itinerários de viagem com várias paradas - Encontrar empresas locais com base nos critérios do usuário
Execução de código	Permita que o modelo escreva e execute código Python para resolver problemas de matemática ou processar dados com precisão.	- Resolver equações matemáticas complexas - Processar e analisar dados de texto com precisão
Contexto do URL	Direcione o modelo para ler e analisar conteúdo de páginas da Web ou documentos específicos.	- Responder perguntas com base em URLs ou documentos específicos - Recuperar informações em diferentes páginas da Web
Uso do computador (prévia)	Permitir que o Gemini veja uma tela e gere ações para interagir com interfaces de navegadores da Web (execução do lado do cliente).	- Automatizar fluxos de trabalho repetitivos baseados na Web - Testar interfaces de usuário de aplicativos da Web
Pesquisa de arquivos	Indexe e pesquise seus próprios documentos para ativar a geração aumentada de recuperação (RAG).	- Pesquisa de manuais técnicos - Resposta a perguntas sobre dados próprios

Consulte a página de preços para saber mais sobre os custos associados a ferramentas específicas.

Representantes disponíveis

Agente	Descrição	Casos de uso
Deep Research	Planeja, executa e sintetiza de forma autônoma tarefas de pesquisa com várias etapas.	- Análise de mercado - Auditoria - Revisões de literatura

Como funciona a execução de ferramentas

Com as ferramentas, o modelo pode solicitar ações durante uma conversa. O fluxo varia dependendo se a ferramenta é integrada (gerenciada pelo Google) ou personalizada (gerenciada por você).

Fluxo de ferramentas integradas

Para ferramentas integradas, como a Pesquisa Google ou a execução de código, todo o processo acontece em uma única chamada de API:

Você envia um comando: "Qual é a raiz quadrada do preço mais recente das ações da GOOG?"
O Gemini decide que precisa de ferramentas e as executa nos servidores do Google (por exemplo, pesquisa o preço das ações e executa o código Python para calcular a raiz quadrada).
O Gemini envia a resposta final com base nos resultados da ferramenta.

Fluxo de ferramenta personalizada (chamada de função)

Para ferramentas personalizadas e uso do computador, seu aplicativo processa a execução:

Você envia um comando com declarações de funções (ferramentas).
O Gemini pode enviar um JSON estruturado para chamar uma função específica (por exemplo, {"name": "get_order_status", "args": {"order_id": "123"}}).
Você executa a função no aplicativo ou ambiente.
Você envia os resultados da função de volta para o Gemini.
O Gemini usa os resultados para gerar uma resposta final ou outra chamada de ferramenta.

Saiba mais no guia de chamada de função.

Saídas estruturadas x chamada de função

O Gemini oferece dois métodos para gerar saídas estruturadas. Use a chamada de função quando o modelo precisar realizar uma etapa intermediária conectando-se às suas próprias ferramentas ou sistemas de dados. Use Saídas estruturadas quando precisar que a resposta final do modelo siga um esquema específico, como para renderizar uma interface personalizada.

Saídas estruturadas com ferramentas

É possível combinar Saídas estruturadas com ferramentas integradas para garantir que as respostas do modelo embasadas em dados externos ou cálculos ainda sigam um esquema estrito.

Consulte Saídas estruturadas com ferramentas para exemplos de código.

Como criar agentes

Os agentes são sistemas que usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini ofereça os recursos de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes você precisa de uma estrutura de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.

Para maximizar a confiabilidade em fluxos de trabalho de várias etapas, crie instruções que controlem explicitamente como o modelo raciocina e planeja. Embora o Gemini ofereça um raciocínio geral forte, agentes complexos se beneficiam de comandos que impõem comportamentos específicos, como persistência diante de problemas, avaliação de riscos e planejamento proativo.

Consulte Fluxos de trabalho com agentes para estratégias de criação desses comandos. Confira um exemplo de instrução do sistema que melhorou a performance em vários comparativos de agentes em cerca de 5%.

Frameworks de agentes

O Gemini se integra aos principais frameworks de agentes de código aberto, como:

LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagentes usando estruturas de grafo.
LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
CrewAI: orquestre agentes de IA autônomos colaborativos e de interpretação de papéis.
SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.