Usar ferramentas com a API Gemini

As ferramentas ampliam as capacidades dos modelos do Gemini, permitindo que eles realizem ações no mundo, acessem informações em tempo real e executem tarefas computacionais complexas. Os modelos podem usar ferramentas em interações padrão de solicitação-resposta e em sessões de streaming em tempo real pela API Live.

A API Gemini oferece um conjunto de ferramentas integradas e totalmente gerenciadas otimizadas para modelos do Gemini. Também é possível definir ferramentas personalizadas usando a chamada de função.

Ferramentas integradas disponíveis

Ferramenta Descrição Casos de uso
Pesquisa Google Embase as respostas em fatos e eventos atuais da Web para reduzir as alucinações. - Responder a perguntas sobre eventos recentes
- Verificar fatos com diversas fontes
Google Maps Crie assistentes com reconhecimento de local que podem encontrar lugares, receber rotas e fornecer um contexto local avançado. - Planejar itinerários de viagem com várias paradas
- Encontrar empresas locais com base nos critérios do usuário
Execução de código Permita que o modelo escreva e execute código Python para resolver problemas de matemática ou processar dados com precisão. - Resolver equações matemáticas complexas
- Processar e analisar dados de texto com precisão
Contexto do URL Direcione o modelo para ler e analisar conteúdo de páginas da Web ou documentos específicos. - Responder perguntas com base em URLs ou documentos específicos
- Recuperar informações em diferentes páginas da Web
Uso do computador (prévia) Permitir que o Gemini veja uma tela e gere ações para interagir com interfaces de navegadores da Web (execução do lado do cliente). - Automatizar fluxos de trabalho repetitivos baseados na Web
- Testar interfaces de usuário de aplicativos da Web
Pesquisa de arquivos Indexe e pesquise seus próprios documentos para ativar a geração aumentada de recuperação (RAG). - Pesquisa de manuais técnicos
- Resposta a perguntas sobre dados próprios

Consulte a página de preços para saber mais sobre os custos associados a ferramentas específicas.

Como funciona a execução de ferramentas

Com as ferramentas, o modelo pode solicitar ações durante uma conversa. O fluxo varia dependendo se a ferramenta é integrada (gerenciada pelo Google) ou personalizada (gerenciada por você).

Fluxo de ferramentas integradas

Para ferramentas integradas, como a Pesquisa Google ou a execução de código, todo o processo acontece em uma única chamada de API:

  1. Você envia um comando: "Qual é a raiz quadrada do preço mais recente das ações da GOOG?"
  2. O Gemini decide que precisa de ferramentas e as executa nos servidores do Google (por exemplo, pesquisa o preço das ações e executa o código Python para calcular a raiz quadrada).
  3. O Gemini envia a resposta final com base nos resultados da ferramenta.

Fluxo de ferramenta personalizada (chamada de função)

Para ferramentas personalizadas e uso do computador, seu aplicativo processa a execução:

  1. Você envia um comando com declarações de funções (ferramentas).
  2. O Gemini pode enviar um JSON estruturado para chamar uma função específica (por exemplo, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Você executa a função no aplicativo ou ambiente.
  4. Você envia os resultados da função de volta para o Gemini.
  5. O Gemini usa os resultados para gerar uma resposta final ou outra chamada de ferramenta.

Saiba mais no guia de chamada de função.

Saídas estruturadas x chamada de função

O Gemini oferece dois métodos para gerar saídas estruturadas. Use a chamada de função quando o modelo precisar realizar uma etapa intermediária conectando-se às suas próprias ferramentas ou sistemas de dados. Use Saídas estruturadas quando precisar que a resposta final do modelo siga um esquema específico, como para renderizar uma interface personalizada.

Como criar agentes

Os agentes são sistemas que usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini ofereça as capacidades de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes você precisa de uma estrutura de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.

O Gemini se integra aos principais frameworks de agentes de código aberto:

  • LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagente usando estruturas de grafo.
  • LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
  • CrewAI: orquestre agentes de IA autônomos e colaborativos de interpretação de papéis.
  • SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
  • ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.