Strumenti e agenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale utilizzando l'API Live.
- Gli strumenti sono funzionalità specifiche (come la Ricerca Google o l'esecuzione di codice) che un modello può utilizzare per rispondere alle query.
- Gli agenti sono sistemi in grado di pianificare, eseguire e sintetizzare attività in più passaggi per raggiungere l'obiettivo di un utente.
L'API Gemini fornisce una suite di strumenti e agenti integrati e completamente gestiti ottimizzati per i modelli Gemini. Puoi anche definire strumenti personalizzati utilizzando la chiamata di funzione.
Strumenti integrati disponibili
| Strumento | Descrizione | Casi d'uso |
|---|---|---|
| la Ricerca Google | Basare le risposte su fatti e attualità del web per ridurre le allucinazioni. | - Rispondere a domande su eventi recenti - Verificare i fatti con fonti diverse |
| Google Maps | Crea assistenti basati sulla posizione che possono trovare luoghi, fornire indicazioni stradali e fornire un contesto locale ricco. | - Pianificazione di itinerari di viaggio con più tappe - Ricerca di attività locali in base ai criteri dell'utente |
| Esecuzione di codice | Consente al modello di scrivere ed eseguire codice Python per risolvere problemi di matematica o elaborare i dati in modo accurato. | - Risoluzione di equazioni matematiche complesse - Elaborazione e analisi precise dei dati di testo |
| Contesto URL | Chiedi al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. | - Rispondere a domande basate su URL o documenti specifici - Recuperare informazioni da diverse pagine web |
| Utilizzo del computer (anteprima) | Consenti a Gemini di visualizzare una schermata e generare azioni per interagire con le UI dei browser web (esecuzione lato client). | - Automatizzazione di flussi di lavoro ripetitivi basati sul web - Test delle interfacce utente delle applicazioni web |
| Ricerca file | Indicizza e cerca i tuoi documenti per attivare la Retrieval Augmented Generation (RAG). | - Ricerca di manuali tecnici - Risposta a domande su dati proprietari |
Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.
Agenti disponibili
| Agente | Descrizione | Casi d'uso |
|---|---|---|
| Deep Research | Pianifica, esegue e sintetizza in modo autonomo attività di ricerca in più passaggi. | - Analisi di mercato - Due diligence - Analisi dei documenti |
Come funziona l'esecuzione degli strumenti
Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).
Flusso dello strumento integrato
Per gli strumenti integrati (Ricerca Google, Google Maps, Contesto URL, Ricerca file, Esecuzione di codice), l'intero processo avviene all'interno di una chiamata API:
- Tu invii un prompt: "Qual è la radice quadrata dell'ultima quotazione azionaria di GOOG?"
- Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
- Gemini restituisce la risposta finale basata sui risultati dello strumento.
Flusso di strumenti personalizzati (chiamata di funzione)
Per gli strumenti personalizzati e l'uso del computer, l'esecuzione viene gestita dall'applicazione:
- Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
- Gemini potrebbe restituire JSON strutturato per chiamare una funzione specifica
(ad esempio
{"name": "get_order_status", "args": {"order_id": "123"}}), sempre con unidunivoco. - Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
- Tu invii i risultati della funzione, con lo stesso
iddella chiamata di funzione, a Gemini. - Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata allo strumento.
Scopri di più nella guida alla chiamata di funzione.
Combinazione del flusso di strumenti integrati e personalizzati
Per le richieste che combinano strumenti integrati e personalizzati (chiamate di funzioni), il modello utilizza la circolazione del contesto degli strumenti per coordinare l'esecuzione in ambienti diversi:
- Tu invii un prompt e dichiari gli strumenti integrati e le funzioni personalizzate che vuoi attivare, impostando un flag per attivare il supporto della combinazione.
- Gemini esegue strumenti integrati e cede il passo all'utente se vengono generate chiamate di funzione lato client (l'esecuzione dipende dal prompt e da ciò che decide il modello). Restituisce una risposta con:
- Conferma della chiamata allo strumento
- Risultati della risposta dello strumento (potrebbero essere visualizzati dopo il JSON se il modello ha generato due chiamate di funzioni parallele)
- JSON strutturato per chiamare la funzione
- Firme dei pensieri criptate per preservare il contesto
- Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
- Tu restituisci tutte le parti della risposta di Gemini, oltre ai risultati della chiamata di funzione.
- Gemini genera la risposta finale utilizzando tutto il contesto combinato.
Leggi la guida alla combinazione di strumenti per scoprire come attivare il supporto per la combinazione di strumenti integrati e personalizzati ed esempi di circolazione del contesto.
Output strutturati e chiamata di funzione
Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio connettendosi ai tuoi strumenti o sistemi di dati. Utilizza Output strutturati quando hai bisogno che la risposta finale del modello rispetti uno schema specifico, ad esempio per il rendering di un'interfaccia utente personalizzata.
Output strutturati con strumenti
Puoi combinare gli output strutturati con strumenti integrati per garantire che le risposte del modello basate su dati esterni o calcoli rispettino comunque uno schema rigoroso.
Consulta Output strutturati con gli strumenti per esempi di codice.
Creare agenti
Gli agenti sono sistemi che utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le capacità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso hai bisogno di un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.
Per massimizzare l'affidabilità nei flussi di lavoro in più passaggi, devi creare istruzioni che controllino esplicitamente il modo in cui il modello ragiona e pianifica. Anche se Gemini fornisce un ragionamento generale solido, gli agenti complessi traggono vantaggio da prompt che impongono comportamenti specifici come la persistenza di fronte ai problemi, la valutazione del rischio e la pianificazione proattiva.
Consulta la sezione Flussi di lavoro agentici per strategie sulla progettazione di questi prompt. Ecco un esempio di istruzione di sistema che ha migliorato le prestazioni in diversi benchmark agentici di circa il 5%.
Framework degli agenti
Gemini si integra con i principali framework di agenti open source, ad esempio:
- LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture grafiche.
- LlamaIndex: collega gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
- CrewAI: orchestra agenti AI autonomi collaborativi che interpretano ruoli.
- Vercel AI SDK: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
- Google ADK: un framework open source per creare e orchestrare agenti di IA interoperabili.