Gli strumenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale utilizzando l'API Live.
Gli strumenti sono funzionalità specifiche (come la Ricerca Google o l'esecuzione di codice) che un modello può utilizzare per rispondere alle query. L'API Gemini fornisce una suite di strumenti integrati completamente gestiti oppure puoi definire strumenti personalizzati utilizzando la chiamata di funzione.
Per creare sistemi multi-step orientati agli obiettivi, consulta la Panoramica sugli agenti.
Strumenti integrati disponibili
| Strumento | Descrizione | Casi d'uso |
|---|---|---|
| la Ricerca Google | Basare le risposte su eventi e fatti attuali del web per ridurre le allucinazioni. | \- Rispondere a domande su eventi recenti \- Verificare i fatti con diverse fonti |
| Google Maps | Crea assistenti basati sulla posizione in grado di trovare luoghi, ottenere indicazioni stradali e fornire un contesto locale ricco. | - Pianificare itinerari di viaggio con più tappe - Trovare attività locali in base ai criteri dell'utente |
| Esecuzione di codice | Consenti al modello di scrivere ed eseguire codice Python per risolvere problemi matematici o elaborare i dati con precisione. | \- Risolvere equazioni matematiche complesse \- Elaborare e analizzare i dati di testo con precisione |
| Contesto URL | Indica al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. | \- Rispondere a domande basate su URL o documenti specifici \- Recuperare informazioni da diverse pagine web |
| Utilizzo del computer (anteprima) | Consenti a Gemini di visualizzare uno schermo e generare azioni per interagire con le UI del browser web (esecuzione lato client). | \- Automatizzare i workflow ripetitivi basati sul web \- Testare le interfacce utente delle applicazioni web |
| Ricerca file | Indicizza e cerca i tuoi documenti per abilitare la Retrieval Augmented Generation (RAG). | \- Cercare manuali tecnici \- Rispondere a domande sui dati proprietari |
Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.
Come funziona l'esecuzione degli strumenti
Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).
Flusso degli strumenti integrati
Per gli strumenti integrati (Ricerca Google, Google Maps, Contesto URL, Ricerca file, Esecuzione di codice), l'intero processo avviene all'interno di una chiamata API:
- Tu invii un prompt: "Qual è la radice quadrata dell'ultimo prezzo delle azioni di GOOG?".
- Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
- Gemini invia la risposta finale basata sui risultati dello strumento.
Flusso degli strumenti personalizzati (chiamata di funzione)
Per gli strumenti personalizzati e l'utilizzo del computer, l'applicazione gestisce l'esecuzione:
- Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
- Gemini potrebbe restituire JSON strutturato per chiamare una funzione specifica
(ad esempio,
{"name": "get_order_status", "args": {"order_id": "123"}}), sempre con unidunivoco. - Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
- Tu invii i risultati della funzione, con lo stesso
iddella chiamata di funzione, a Gemini. - Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata di strumento.
Scopri di più nella guida alla chiamata di funzione.
Combinazione del flusso di strumenti integrati e personalizzati
Per le richieste che combinano strumenti integrati e strumenti personalizzati (chiamate di funzione), il modello utilizza la circolazione del contesto dello strumento per coordinare l'esecuzione in ambienti diversi:
- Tu invii un prompt e dichiari gli strumenti integrati e le funzioni personalizzate che vuoi abilitare, impostando un flag per attivare il supporto della combinazione.
- Gemini esegue gli strumenti integrati e cede il controllo all'utente se vengono generate chiamate di funzione lato client (l'esecuzione dipende dal prompt e da ciò che decide il modello). Restituisce una risposta con:
- Conferma della chiamata dello strumento
- Risultati della risposta dello strumento (potrebbe essere visualizzata dopo il JSON se il modello ha generato due chiamate di funzione parallele)
- JSON strutturato per chiamare la funzione
- Firme di pensiero criptate per preservare il contesto
- Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
- Tu restituisci tutte le parti della risposta di Gemini, oltre ai risultati della chiamata di funzione.
- Gemini genera la risposta finale utilizzando tutto il contesto combinato.
Leggi la guida alla combinazione di strumenti per scoprire come attivare il supporto per la combinazione di strumenti integrati e personalizzati ed esempi di circolazione del contesto.
Output strutturati e chiamata di funzione
Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio collegandosi ai tuoi strumenti o sistemi di dati. Utilizza gli output strutturati quando hai bisogno che la risposta finale del modello rispetti uno schema specifico, ad esempio per il rendering di un'UI personalizzata.
Output strutturati con strumenti
Puoi combinare gli output strutturati con gli strumenti integrati per assicurarti che le risposte del modello basate su dati o calcoli esterni rispettino comunque uno schema rigoroso.
Per esempi di codice, consulta Output strutturati con strumenti.