Visão geral dos agentes

Os agentes são sistemas que usam modelos do Gemini, um conjunto de ferramentas e recursos de raciocínio para realizar tarefas complexas de várias etapas e atingir metas específicas. Ao contrário de uma única chamada de modelo, um agente pode planejar, executar uma série de ações, interagir com sistemas externos e sintetizar informações para atender à solicitação de um usuário.

Com a API Gemini, é possível criar agentes eficientes usando recursos como:

  • Modelos do Gemini:a inteligência principal, que oferece raciocínio e compreensão de linguagem.
  • Ferramentas:recursos que conectam o modelo a informações e ações do mundo real. Elas podem ser ferramentas integradas (como a Pesquisa Google, o Maps e a execução de código) ou personalizadas.
  • Chamada de função:o mecanismo para definir e conectar suas próprias ferramentas e APIs personalizadas ao modelo Gemini.
  • Raciocínio:recursos que melhoram a capacidade do modelo de raciocinar e planejar tarefas complexas.
  • Contexto longo:permite que os agentes mantenham o estado e as informações em interações mais longas.

Representantes disponíveis

  • Deep Research Agent:um agente autônomo que planeja, executa e sintetiza tarefas de pesquisa em várias etapas para casos de uso como análise de mercado, auditoria e revisões de literatura.

Como criar agentes

Os agentes usam modelos e ferramentas para concluir tarefas de várias etapas. Embora o Gemini forneça as capacidades de raciocínio (o "cérebro") e as ferramentas essenciais (as "mãos"), muitas vezes é necessário um framework de orquestração para gerenciar a memória do agente, planejar loops e realizar encadeamento de ferramentas complexo.

Para maximizar a confiabilidade em fluxos de trabalho de várias etapas, crie instruções que controlem explicitamente como o modelo raciocina e planeja. Embora o Gemini ofereça um raciocínio geral forte, agentes complexos se beneficiam de comandos que impõem comportamentos específicos, como persistência diante de problemas, avaliação de riscos e planejamento proativo.

Consulte os fluxos de trabalho de agente para estratégias de criação desses comandos. Confira um exemplo de uma instrução do sistema que melhorou a performance em vários comparativos de agentes em cerca de 5%.

Frameworks de agentes

O Gemini se integra aos principais frameworks de agentes de código aberto, como:

  • LangChain / LangGraph: crie fluxos de aplicativos complexos e com estado e sistemas multiagentes usando estruturas de grafo.
  • LlamaIndex: conecte agentes do Gemini aos seus dados particulares para fluxos de trabalho aprimorados com RAG.
  • CrewAI: orquestre agentes de IA autônomos colaborativos e de interpretação de papéis.
  • SDK de IA da Vercel: crie interfaces e agentes de usuário com tecnologia de IA em JavaScript/TypeScript.
  • ADK do Google: um framework de código aberto para criar e orquestrar agentes de IA interoperáveis.