Gli agenti sono sistemi che sfruttano i modelli Gemini, un insieme di strumenti e capacità di ragionamento per svolgere attività complesse in più passaggi e raggiungere obiettivi specifici. A differenza di una singola chiamata di modello, un agente può pianificare, eseguire una serie di azioni, interagire con sistemi esterni e sintetizzare le informazioni per soddisfare la richiesta di un utente.
Con l'API Gemini, puoi creare agenti potenti utilizzando funzionalità come:
- Modelli Gemini: l'intelligenza di base, che fornisce ragionamento e comprensione del linguaggio.
- Strumenti: funzionalità che collegano il modello a informazioni e azioni del mondo reale. Questi possono essere strumenti integrati (come la Ricerca Google, Maps, Esecuzione di codice) o strumenti personalizzati.
- Chiamata di funzione: il meccanismo per definire e connettere i tuoi strumenti e le tue API personalizzati al modello Gemini.
- Ragionamento: funzionalità che migliorano la capacità del modello di ragionare e pianificare attività complesse.
- Contesto lungo: consente agli agenti di mantenere lo stato e le informazioni durante interazioni prolungate.
Agenti disponibili
- Agente Deep Research: un agente autonomo che pianifica, esegue e sintetizza attività di ricerca in più fasi per casi d'uso come analisi di mercato, due diligence e revisioni della letteratura.
Creare agenti
Gli agenti utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le funzionalità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso è necessario un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.
Per massimizzare l'affidabilità nei flussi di lavoro in più passaggi, devi creare istruzioni che controllino esplicitamente il modo in cui il modello ragiona e pianifica. Anche se Gemini fornisce un ragionamento generale solido, gli agenti complessi traggono vantaggio da prompt che impongono comportamenti specifici come la persistenza di fronte ai problemi, la valutazione del rischio e la pianificazione proattiva.
Consulta i flussi di lavoro agentici per strategie sulla progettazione di questi prompt. Ecco un esempio di istruzione di sistema che ha migliorato le prestazioni in diversi benchmark agentici di circa il 5%.
Framework degli agenti
Gemini si integra con i principali framework di agenti open source, ad esempio:
- LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture grafiche.
- LlamaIndex: collega gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
- CrewAI: orchestra agenti AI autonomi collaborativi che interpretano ruoli.
- Vercel AI SDK: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
- Google ADK: un framework open source per creare e orchestrare agenti di IA interoperabili.