Utilizzo di Strumenti e agenti con l'API Gemini

Strumenti e agenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale utilizzando l'API Live.

  • Gli strumenti sono funzionalità specifiche (come la Ricerca Google o l'esecuzione di codice) che un modello può utilizzare per rispondere alle query.
  • Gli agenti sono sistemi in grado di pianificare, eseguire e sintetizzare attività in più passaggi per raggiungere l'obiettivo di un utente.

L'API Gemini fornisce una suite di strumenti e agenti integrati e completamente gestiti ottimizzati per i modelli Gemini. Puoi anche definire strumenti personalizzati utilizzando la chiamata di funzione.

Strumenti integrati disponibili

Strumento Descrizione Casi d'uso
la Ricerca Google Basare le risposte su fatti e attualità del web per ridurre le allucinazioni. - Rispondere a domande su eventi recenti
- Verificare i fatti con fonti diverse
Google Maps Crea assistenti basati sulla posizione che possono trovare luoghi, fornire indicazioni stradali e fornire un contesto locale ricco. - Pianificazione di itinerari di viaggio con più tappe
- Ricerca di attività locali in base ai criteri dell'utente
Esecuzione di codice Consente al modello di scrivere ed eseguire codice Python per risolvere problemi di matematica o elaborare i dati in modo accurato. - Risoluzione di equazioni matematiche complesse
- Elaborazione e analisi precise dei dati di testo
Contesto URL Chiedi al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. - Rispondere a domande basate su URL o documenti specifici
- Recuperare informazioni da diverse pagine web
Utilizzo del computer (anteprima) Consenti a Gemini di visualizzare una schermata e generare azioni per interagire con le UI dei browser web (esecuzione lato client). - Automatizzazione di flussi di lavoro ripetitivi basati sul web
- Test delle interfacce utente delle applicazioni web
Ricerca file Indicizza e cerca i tuoi documenti per attivare la Retrieval Augmented Generation (RAG). - Ricerca di manuali tecnici
- Risposta a domande su dati proprietari

Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.

Agenti disponibili

Agente Descrizione Casi d'uso
Deep Research Pianifica, esegue e sintetizza in modo autonomo attività di ricerca in più passaggi. - Analisi di mercato
- Due diligence
- Analisi dei documenti

Come funziona l'esecuzione degli strumenti

Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).

Flusso dello strumento integrato

Per gli strumenti integrati (Ricerca Google, Google Maps, Contesto URL, Ricerca file, Esecuzione di codice), l'intero processo avviene all'interno di una chiamata API:

  1. Tu invii un prompt: "Qual è la radice quadrata dell'ultima quotazione azionaria di GOOG?"
  2. Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
  3. Gemini restituisce la risposta finale basata sui risultati dello strumento.

Flusso di strumenti personalizzati (chiamata di funzione)

Per gli strumenti personalizzati e l'uso del computer, l'esecuzione viene gestita dall'applicazione:

  1. Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
  2. Gemini potrebbe restituire JSON strutturato per chiamare una funzione specifica (ad esempio {"name": "get_order_status", "args": {"order_id": "123"}}), sempre con un id univoco.
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu invii i risultati della funzione, con lo stesso id della chiamata di funzione, a Gemini.
  5. Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata allo strumento.

Scopri di più nella guida alla chiamata di funzione.

Combinazione del flusso di strumenti integrati e personalizzati

Per le richieste che combinano strumenti integrati e personalizzati (chiamate di funzioni), il modello utilizza la circolazione del contesto degli strumenti per coordinare l'esecuzione in ambienti diversi:

  1. Tu invii un prompt e dichiari gli strumenti integrati e le funzioni personalizzate che vuoi attivare, impostando un flag per attivare il supporto della combinazione.
  2. Gemini esegue strumenti integrati e cede il passo all'utente se vengono generate chiamate di funzione lato client (l'esecuzione dipende dal prompt e da ciò che decide il modello). Restituisce una risposta con:
    • Conferma della chiamata allo strumento
    • Risultati della risposta dello strumento (potrebbero essere visualizzati dopo il JSON se il modello ha generato due chiamate di funzioni parallele)
    • JSON strutturato per chiamare la funzione
    • Firme dei pensieri criptate per preservare il contesto
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu restituisci tutte le parti della risposta di Gemini, oltre ai risultati della chiamata di funzione.
  5. Gemini genera la risposta finale utilizzando tutto il contesto combinato.

Leggi la guida alla combinazione di strumenti per scoprire come attivare il supporto per la combinazione di strumenti integrati e personalizzati ed esempi di circolazione del contesto.

Output strutturati e chiamata di funzione

Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio connettendosi ai tuoi strumenti o sistemi di dati. Utilizza Output strutturati quando hai bisogno che la risposta finale del modello rispetti uno schema specifico, ad esempio per il rendering di un'interfaccia utente personalizzata.

Output strutturati con strumenti

Puoi combinare gli output strutturati con strumenti integrati per garantire che le risposte del modello basate su dati esterni o calcoli rispettino comunque uno schema rigoroso.

Consulta Output strutturati con gli strumenti per esempi di codice.

Creare agenti

Gli agenti sono sistemi che utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le capacità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso hai bisogno di un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.

Per massimizzare l'affidabilità nei flussi di lavoro in più passaggi, devi creare istruzioni che controllino esplicitamente il modo in cui il modello ragiona e pianifica. Anche se Gemini fornisce un ragionamento generale solido, gli agenti complessi traggono vantaggio da prompt che impongono comportamenti specifici come la persistenza di fronte ai problemi, la valutazione del rischio e la pianificazione proattiva.

Consulta la sezione Flussi di lavoro agentici per strategie sulla progettazione di questi prompt. Ecco un esempio di istruzione di sistema che ha migliorato le prestazioni in diversi benchmark agentici di circa il 5%.

Framework degli agenti

Gemini si integra con i principali framework di agenti open source, ad esempio:

  • LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture grafiche.
  • LlamaIndex: collega gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
  • CrewAI: orchestra agenti AI autonomi collaborativi che interpretano ruoli.
  • Vercel AI SDK: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
  • Google ADK: un framework open source per creare e orchestrare agenti di IA interoperabili.