Utilizzo degli strumenti con l'API Gemini

Gli strumenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale utilizzando l'API Live.

Gli strumenti sono funzionalità specifiche (come la Ricerca Google o l'esecuzione di codice) che un modello può utilizzare per rispondere alle query. L'API Gemini fornisce una suite di strumenti integrati completamente gestiti oppure puoi definire strumenti personalizzati utilizzando la chiamata di funzione.

Per creare sistemi multi-step orientati agli obiettivi, consulta la Panoramica sugli agenti.

Strumenti integrati disponibili

Strumento Descrizione Casi d'uso
la Ricerca Google Basare le risposte su eventi e fatti attuali del web per ridurre le allucinazioni. \- Rispondere a domande su eventi recenti
\- Verificare i fatti con diverse fonti
Google Maps Crea assistenti basati sulla posizione in grado di trovare luoghi, ottenere indicazioni stradali e fornire un contesto locale ricco. - Pianificare itinerari di viaggio con più tappe
- Trovare attività locali in base ai criteri dell'utente
Esecuzione di codice Consenti al modello di scrivere ed eseguire codice Python per risolvere problemi matematici o elaborare i dati con precisione. \- Risolvere equazioni matematiche complesse
\- Elaborare e analizzare i dati di testo con precisione
Contesto URL Indica al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. \- Rispondere a domande basate su URL o documenti specifici
\- Recuperare informazioni da diverse pagine web
Utilizzo del computer (anteprima) Consenti a Gemini di visualizzare uno schermo e generare azioni per interagire con le UI del browser web (esecuzione lato client). \- Automatizzare i workflow ripetitivi basati sul web
\- Testare le interfacce utente delle applicazioni web
Ricerca file Indicizza e cerca i tuoi documenti per abilitare la Retrieval Augmented Generation (RAG). \- Cercare manuali tecnici
\- Rispondere a domande sui dati proprietari

Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.

Come funziona l'esecuzione degli strumenti

Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).

Flusso degli strumenti integrati

Per gli strumenti integrati (Ricerca Google, Google Maps, Contesto URL, Ricerca file, Esecuzione di codice), l'intero processo avviene all'interno di una chiamata API:

  1. Tu invii un prompt: "Qual è la radice quadrata dell'ultimo prezzo delle azioni di GOOG?".
  2. Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
  3. Gemini invia la risposta finale basata sui risultati dello strumento.

Flusso degli strumenti personalizzati (chiamata di funzione)

Per gli strumenti personalizzati e l'utilizzo del computer, l'applicazione gestisce l'esecuzione:

  1. Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
  2. Gemini potrebbe restituire JSON strutturato per chiamare una funzione specifica (ad esempio, {"name": "get_order_status", "args": {"order_id": "123"}}), sempre con un id univoco.
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu invii i risultati della funzione, con lo stesso id della chiamata di funzione, a Gemini.
  5. Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata di strumento.

Scopri di più nella guida alla chiamata di funzione.

Combinazione del flusso di strumenti integrati e personalizzati

Per le richieste che combinano strumenti integrati e strumenti personalizzati (chiamate di funzione), il modello utilizza la circolazione del contesto dello strumento per coordinare l'esecuzione in ambienti diversi:

  1. Tu invii un prompt e dichiari gli strumenti integrati e le funzioni personalizzate che vuoi abilitare, impostando un flag per attivare il supporto della combinazione.
  2. Gemini esegue gli strumenti integrati e cede il controllo all'utente se vengono generate chiamate di funzione lato client (l'esecuzione dipende dal prompt e da ciò che decide il modello). Restituisce una risposta con:
    • Conferma della chiamata dello strumento
    • Risultati della risposta dello strumento (potrebbe essere visualizzata dopo il JSON se il modello ha generato due chiamate di funzione parallele)
    • JSON strutturato per chiamare la funzione
    • Firme di pensiero criptate per preservare il contesto
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu restituisci tutte le parti della risposta di Gemini, oltre ai risultati della chiamata di funzione.
  5. Gemini genera la risposta finale utilizzando tutto il contesto combinato.

Leggi la guida alla combinazione di strumenti per scoprire come attivare il supporto per la combinazione di strumenti integrati e personalizzati ed esempi di circolazione del contesto.

Output strutturati e chiamata di funzione

Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio collegandosi ai tuoi strumenti o sistemi di dati. Utilizza gli output strutturati quando hai bisogno che la risposta finale del modello rispetti uno schema specifico, ad esempio per il rendering di un'UI personalizzata.

Output strutturati con strumenti

Puoi combinare gli output strutturati con gli strumenti integrati per assicurarti che le risposte del modello basate su dati o calcoli esterni rispettino comunque uno schema rigoroso.

Per esempi di codice, consulta Output strutturati con strumenti.