As ferramentas ampliam as capacidades dos modelos do Gemini, permitindo que eles realizem ações no mundo, acessem informações em tempo real e executem tarefas computacionais complexas. Os modelos podem usar ferramentas em interações padrão de solicitação-resposta e em sessões de streaming em tempo real pela API Live.
A API Gemini oferece um conjunto de ferramentas integradas e totalmente gerenciadas otimizadas para modelos do Gemini. Também é possível definir ferramentas personalizadas usando a chamada de função.
Ferramentas integradas disponíveis
| Ferramenta | Descrição | Casos de uso |
|---|---|---|
| Pesquisa Google | Embase as respostas em fatos e eventos atuais da Web para reduzir as alucinações. | - Responder a perguntas sobre eventos recentes - Verificar fatos com diversas fontes |
| Google Maps | Crie assistentes com reconhecimento de local que podem encontrar lugares, receber rotas e fornecer um contexto local avançado. | - Planejar itinerários de viagem com várias paradas - Encontrar empresas locais com base nos critérios do usuário |
| Execução de código | Permita que o modelo escreva e execute código Python para resolver problemas de matemática ou processar dados com precisão. | - Resolver equações matemáticas complexas - Processar e analisar dados de texto com precisão |
| Contexto do URL | Direcione o modelo para ler e analisar conteúdo de páginas da Web ou documentos específicos. | - Responder perguntas com base em URLs ou documentos específicos - Recuperar informações em diferentes páginas da Web |
| Uso do computador (prévia) | Permitir que o Gemini veja uma tela e gere ações para interagir com interfaces de navegadores da Web (execução do lado do cliente). | - Automatizar fluxos de trabalho repetitivos baseados na Web - Testar interfaces de usuário de aplicativos da Web |
| Pesquisa de arquivos | Indexe e pesquise seus próprios documentos para ativar a geração aumentada de recuperação (RAG). | - Pesquisa de manuais técnicos - Resposta a perguntas sobre dados próprios |
Consulte a página de preços para saber mais sobre os custos associados a ferramentas específicas.
Como funciona a execução de ferramentas
Com as ferramentas, o modelo pode solicitar ações durante uma conversa. O fluxo varia dependendo se a ferramenta é integrada (gerenciada pelo Google) ou personalizada (gerenciada por você).
Fluxo de ferramentas integradas
Para ferramentas integradas, como a Pesquisa Google ou a execução de código, todo o processo acontece em uma única chamada de API:
- Você envia um comando: "Qual é a raiz quadrada do preço mais recente das ações da GOOG?"
- O Gemini decide que precisa de ferramentas e as executa nos servidores do Google (por exemplo, pesquisa o preço das ações e executa o código Python para calcular a raiz quadrada).
- O Gemini envia a resposta final com base nos resultados da ferramenta.
Fluxo de ferramenta personalizada (chamada de função)
Para ferramentas personalizadas e uso do computador, seu aplicativo processa a execução:
- Você envia um comando com declarações de funções (ferramentas).
- O Gemini pode enviar um JSON estruturado para chamar uma função específica (por exemplo,
{"name": "get_order_status", "args": {"order_id": "123"}}). - Você executa a função no aplicativo ou ambiente.
- Você envia os resultados da função de volta para o Gemini.
- O Gemini usa os resultados para gerar uma resposta final ou outra chamada de ferramenta.
Saiba mais no guia de chamada de função.
Saídas estruturadas x chamada de função
O Gemini oferece dois métodos para gerar saídas estruturadas. Use a chamada de função quando o modelo precisar realizar uma etapa intermediária conectando-se às suas próprias ferramentas ou sistemas de dados. Use Saídas estruturadas quando precisar que a resposta final do modelo siga um esquema específico, como para renderizar uma interface personalizada.
Como criar agentes
Os agentes são sistemas que usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini ofereça as capacidades de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes você precisa de uma estrutura de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.
O Gemini se integra aos principais frameworks de agentes de código aberto:
- LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagente usando estruturas de grafo.
- LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
- CrewAI: orquestre agentes de IA autônomos e colaborativos de interpretação de papéis.
- SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
- ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.