Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzo degli strumenti con l'API Gemini

Gli strumenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale tramite l'API Live.

L'API Gemini fornisce una suite di strumenti integrati e completamente gestiti ottimizzati per i modelli Gemini oppure puoi definire strumenti personalizzati utilizzando la chiamata di funzione.

Strumenti integrati disponibili

Strumento	Descrizione	Casi d'uso
la Ricerca Google	Basare le risposte su fatti e attualità del web per ridurre le allucinazioni.	- Rispondere a domande su eventi recenti - Verificare i fatti con fonti diverse
Google Maps	Crea assistenti basati sulla posizione che possono trovare luoghi, fornire indicazioni stradali e fornire un contesto locale ricco.	- Pianificazione di itinerari di viaggio con più tappe - Ricerca di attività locali in base ai criteri dell'utente
Esecuzione di codice	Consenti al modello di scrivere ed eseguire codice Python per risolvere problemi di matematica o elaborare i dati in modo accurato.	- Risoluzione di equazioni matematiche complesse - Elaborazione e analisi precise dei dati di testo
Contesto URL	Chiedi al modello di leggere e analizzare i contenuti di pagine web o documenti specifici.	- Rispondere a domande basate su URL o documenti specifici - Recuperare informazioni da diverse pagine web
Utilizzo del computer (anteprima)	Consenti a Gemini di visualizzare una schermata e generare azioni per interagire con le UI dei browser web (esecuzione lato client).	- Automatizzare i flussi di lavoro ripetitivi basati sul web - Testare le interfacce utente delle applicazioni web
Ricerca file	Indicizza e cerca i tuoi documenti per attivare la Retrieval-Augmented Generation (RAG).	- Ricerca di manuali tecnici - Risposta a domande su dati proprietari

Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.

Come funziona l'esecuzione degli strumenti

Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).

Flusso dello strumento integrato

Per gli strumenti integrati come la Ricerca Google o l'esecuzione di codice, l'intero processo avviene con una sola chiamata API:

Tu invii un prompt: "Qual è la radice quadrata dell'ultima quotazione azionaria di GOOG?"
Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, poi esegue il codice Python per calcolare la radice quadrata).
Gemini restituisce la risposta finale basata sui risultati dello strumento.

Flusso di strumenti personalizzati (chiamata di funzione)

Per gli strumenti personalizzati e l'utilizzo del computer, l'applicazione gestisce l'esecuzione:

Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
Gemini potrebbe restituire un JSON strutturato per chiamare una funzione specifica (ad esempio, {"name": "get_order_status", "args": {"order_id": "123"}}).
Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
Tu invii i risultati della funzione a Gemini.
Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata allo strumento.

Scopri di più nella guida alla chiamata di funzione.

Output strutturati e chiamata di funzioni

Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzione quando il modello deve eseguire un passaggio intermedio connettendosi ai tuoi strumenti o sistemi di dati. Utilizza Output strutturati quando hai bisogno che la risposta finale del modello rispetti rigorosamente uno schema specifico, ad esempio per il rendering di un'interfaccia utente personalizzata.

Output strutturati con strumenti

Puoi combinare gli output strutturati con strumenti integrati per garantire che le risposte del modello basate su dati o calcoli esterni rispettino comunque uno schema rigoroso.

Per esempi di codice, vedi Output strutturati con gli strumenti.

Creare agenti

Gli agenti sono sistemi che utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le funzionalità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso è necessario un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.

Per massimizzare l'affidabilità nei flussi di lavoro in più passaggi, devi creare istruzioni che controllino esplicitamente il modo in cui il modello ragiona e pianifica. Sebbene Gemini fornisca un ragionamento generale solido, gli agenti complessi traggono vantaggio da prompt che impongono comportamenti specifici come la persistenza di fronte ai problemi, la valutazione del rischio e la pianificazione proattiva.

Consulta la sezione Flussi di lavoro agentici per strategie sulla progettazione di questi prompt. Ecco un esempio di istruzione di sistema che ha migliorato le prestazioni di diversi benchmark agentici di circa il 5%.

Framework degli agenti

Gemini si integra con i principali framework di agenti open source, ad esempio:

LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture grafiche.
LlamaIndex: collega gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
CrewAI: orchestra agenti AI autonomi collaborativi e di role-playing.
SDK Vercel AI: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
Google ADK: un framework open source per la creazione e l'orchestrazione di agenti AI interoperabili.