As ferramentas ampliam os recursos dos modelos do Gemini, permitindo que eles ajam no mundo real, acessem informações em tempo real e realizem tarefas computacionais complexas. Os modelos podem usar ferramentas em interações padrão de solicitação-resposta e em sessões de streaming em tempo real usando a API Live.
As ferramentas são recursos específicos (como a Pesquisa Google ou a execução de código) que um modelo pode usar para responder a consultas. A API Gemini oferece um conjunto de ferramentas integradas e totalmente gerenciadas, ou você pode definir ferramentas personalizadas usando chamada de função.
Para criar sistemas orientados a metas e de várias etapas, consulte a Visão geral dos agentes.
Ferramentas integradas disponíveis
| Ferramenta | Descrição | Casos de uso |
|---|---|---|
| Pesquisa Google | Embase as respostas em eventos e fatos atuais da Web para reduzir as alucinações. | \- Responder a perguntas sobre eventos recentes \- Verificar fatos com diversas fontes |
| Google Maps | Crie assistentes com reconhecimento de localização que podem encontrar lugares, receber rotas e fornecer um contexto local avançado. | - Planejar itinerários de viagem com várias paradas - Encontrar empresas locais com base nos critérios do usuário |
| Execução de código | Permita que o modelo escreva e execute código Python para resolver problemas matemáticos ou processar dados com precisão. | \- Resolver equações matemáticas complexas \- Processar e analisar dados de texto com precisão |
| Contexto de URL | Direcione o modelo para ler e analisar conteúdo de páginas ou documentos da Web específicos. | \- Responder a perguntas com base em URLs ou documentos específicos \- Recuperar informações em diferentes páginas da Web |
| Uso do computador (prévia) | Permita que o Gemini visualize uma tela e gere ações para interagir com as interfaces do navegador da Web (execução do lado do cliente). | \- Automatizar fluxos de trabalho repetitivos baseados na Web \- Testar interfaces de usuário de aplicativos da Web |
| Pesquisa de arquivos | Indexe e pesquise seus próprios documentos para ativar a geração aumentada de recuperação (RAG). | - Pesquisar manuais técnicos - Responder a perguntas sobre dados próprios |
Consulte a página de preços para detalhes sobre os custos associados a ferramentas específicas.
Como funciona a execução de ferramentas
As ferramentas permitem que o modelo solicite ações durante uma conversa. O fluxo varia dependendo se a ferramenta é integrada (gerenciada pelo Google) ou personalizada (gerenciada por você).
Fluxo de ferramentas integradas
Para ferramentas integradas (Pesquisa Google, Google Maps, contexto de URL, pesquisa de arquivos, execução de código), todo o processo acontece em uma chamada de API:
- Você envia um comando: "Qual é a raiz quadrada do preço mais recente das ações da GOOG?"
- O Gemini decide que precisa de ferramentas e as executa nos servidores do Google (por exemplo, pesquisa o preço das ações e executa o código Python para calcular a raiz quadrada).
- O Gemini envia a resposta final com base nos resultados da ferramenta.
Fluxo de ferramentas personalizadas (chamada de função)
Para ferramentas personalizadas e uso do computador, o aplicativo processa a execução:
- Você envia um comando com declarações de funções (ferramentas).
- O Gemini pode enviar um JSON estruturado para chamar uma função específica
(por exemplo,
{"name": "get_order_status", "args": {"order_id": "123"}}), sempre com umidexclusivo. - Você executa a função no aplicativo ou ambiente.
- Você envia os resultados da função, com o mesmo
idda chamada de função, de volta ao Gemini. - O Gemini usa os resultados para gerar uma resposta final ou outra chamada de ferramenta.
Saiba mais no guia de chamada de função.
Como combinar o fluxo de ferramentas integradas e personalizadas
Para solicitações que combinam ferramentas integradas e personalizadas (chamadas de função), o modelo usa circulação de contexto de ferramenta para coordenar a execução em diferentes ambientes:
- Você envia um comando e declara as ferramentas integradas e as funções personalizadas que quer ativar, definindo um flag para ativar o suporte à combinação.
- O Gemini executa ferramentas integradas e cede ao usuário se alguma chamada de função do lado do cliente for gerada (a execução depende do comando e do que o modelo decidir). Ele envia uma resposta com:
- Confirmação da chamada de ferramenta
- Resultados da resposta da ferramenta (isso pode acontecer após o JSON se o modelo gerar duas chamadas de função paralelas)
- JSON estruturado para chamar sua função
- Assinaturas de pensamento criptografadas para preservar o contexto
- Você executa a função no aplicativo ou ambiente.
- Você retorna todas as partes da resposta do Gemini, além dos resultados da chamada de função.
- O Gemini gera a resposta final usando todo o contexto combinado.
Leia o guia de combinação de ferramentas para saber como ativar o suporte à combinação de ferramentas integradas e personalizadas e exemplos de circulação de contexto.
Respostas estruturadas x chamada de função
O Gemini oferece dois métodos para gerar respostas estruturadas. Use Chamada de função quando o modelo precisar realizar uma etapa intermediária conectando-se às suas próprias ferramentas ou sistemas de dados. Use respostas estruturadas quando precisar que a resposta final do modelo siga um esquema específico, como para renderizar uma interface personalizada.
Respostas estruturadas com ferramentas
É possível combinar respostas estruturadas com ferramentas integradas para garantir que as respostas do modelo baseadas em dados ou cálculos externos ainda sigam um esquema rigoroso.
Consulte Respostas estruturadas com ferramentas para exemplos de código.