Utilizzo di Strumenti e agenti con l'API Gemini

Strumenti e agenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale utilizzando l'API Live.

  • Gli strumenti sono funzionalità specifiche (come la Ricerca Google o l'esecuzione di codice) che un modello può utilizzare per rispondere alle query.
  • Gli agenti sono sistemi in grado di pianificare, eseguire e sintetizzare attività in più passaggi per raggiungere l'obiettivo di un utente.

L'API Gemini fornisce una suite di strumenti e agenti integrati e completamente gestiti ottimizzati per i modelli Gemini oppure puoi definire strumenti personalizzati utilizzando la chiamata di funzione.

Strumenti integrati disponibili

Strumento Descrizione Casi d'uso
la Ricerca Google Basare le risposte su fatti e attualità del web per ridurre le allucinazioni. - Rispondere a domande su eventi recenti
- Verificare i fatti con fonti diverse
Google Maps Crea assistenti basati sulla posizione che possono trovare luoghi, fornire indicazioni stradali e offrire un contesto locale ricco. - Pianificazione di itinerari di viaggio con più tappe
- Ricerca di attività locali in base ai criteri dell'utente
Esecuzione di codice Consenti al modello di scrivere ed eseguire codice Python per risolvere problemi di matematica o elaborare i dati in modo accurato. - Risoluzione di equazioni matematiche complesse
- Elaborazione e analisi precise dei dati di testo
Contesto URL Chiedi al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. - Rispondere a domande basate su URL o documenti specifici
- Recuperare informazioni da diverse pagine web
Utilizzo del computer (anteprima) Consenti a Gemini di visualizzare una schermata e generare azioni per interagire con le UI del browser web (esecuzione lato client). - Automatizzare i flussi di lavoro ripetitivi basati sul web
- Testare le interfacce utente delle applicazioni web
Ricerca file Indicizza e cerca i tuoi documenti per attivare la Retrieval Augmented Generation (RAG). - Ricerca di manuali tecnici
- Risposta a domande su dati proprietari

Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.

Agenti disponibili

Agente Descrizione Casi d'uso
Deep Research Pianifica, esegue e sintetizza in modo autonomo attività di ricerca in più passaggi. - Analisi di mercato
- Due diligence
- Analisi dei documenti

Come funziona l'esecuzione degli strumenti

Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).

Flusso dello strumento integrato

Per gli strumenti integrati come Ricerca Google o Esecuzione di codice, l'intero processo avviene con una sola chiamata API:

  1. Tu invii un prompt: "Qual è la radice quadrata dell'ultima quotazione azionaria di GOOG?"
  2. Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
  3. Gemini restituisce la risposta finale basata sui risultati dello strumento.

Flusso di strumenti personalizzato (chiamata di funzione)

Per gli strumenti personalizzati e l'utilizzo del computer, l'applicazione gestisce l'esecuzione:

  1. Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
  2. Gemini potrebbe restituire un JSON strutturato per chiamare una funzione specifica (ad esempio, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu invii i risultati della funzione a Gemini.
  5. Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata allo strumento.

Scopri di più nella guida alla chiamata di funzione.

Output strutturati e chiamata di funzioni

Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio connettendosi ai tuoi strumenti o sistemi di dati. Utilizza Output strutturati quando hai bisogno che la risposta finale del modello rispetti uno schema specifico, ad esempio per il rendering di un'interfaccia utente personalizzata.

Output strutturati con strumenti

Puoi combinare gli output strutturati con strumenti integrati per garantire che le risposte del modello basate su dati esterni o calcoli rispettino comunque uno schema rigoroso.

Consulta Output strutturati con gli strumenti per esempi di codice.

Creare agenti

Gli agenti sono sistemi che utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le capacità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso hai bisogno di un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.

Per massimizzare l'affidabilità nei flussi di lavoro in più passaggi, devi creare istruzioni che controllino esplicitamente il modo in cui il modello ragiona e pianifica. Sebbene Gemini fornisca un ragionamento generale efficace, gli agenti complessi traggono vantaggio da prompt che impongono comportamenti specifici come la persistenza di fronte ai problemi, la valutazione del rischio e la pianificazione proattiva.

Consulta la sezione Flussi di lavoro agentici per strategie sulla progettazione di questi prompt. Ecco un esempio di istruzione di sistema che ha migliorato le prestazioni in diversi benchmark agentici di circa il 5%.

Framework degli agenti

Gemini si integra con i principali framework di agenti open source, ad esempio:

  • LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture di grafici.
  • LlamaIndex: collega gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
  • CrewAI: orchestra agenti AI autonomi collaborativi che interpretano ruoli.
  • SDK Vercel AI: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
  • Google ADK: un framework open source per creare e orchestrare agenti AI interoperabili.