Utilizzo degli strumenti con l'API Gemini

Gli strumenti estendono le funzionalità dei modelli Gemini, consentendo loro di agire nel mondo, accedere a informazioni in tempo reale ed eseguire attività di calcolo complesse. I modelli possono utilizzare gli strumenti sia nelle interazioni standard di richiesta-risposta sia nelle sessioni di streaming in tempo reale tramite l'API Live.

L'API Gemini fornisce una suite di strumenti integrati e completamente gestiti ottimizzati per i modelli Gemini oppure puoi definire strumenti personalizzati utilizzando la chiamata di funzione.

Strumenti integrati disponibili

Strumento Descrizione Casi d'uso
la Ricerca Google Basare le risposte su fatti e attualità del web per ridurre le allucinazioni. - Rispondere a domande su eventi recenti
- Verificare i fatti con fonti diverse
Google Maps Crea assistenti basati sulla posizione che possono trovare luoghi, fornire indicazioni stradali e fornire un contesto locale ricco. - Pianificazione di itinerari di viaggio con più tappe
- Ricerca di attività locali in base ai criteri dell'utente
Esecuzione di codice Consenti al modello di scrivere ed eseguire codice Python per risolvere problemi di matematica o elaborare i dati in modo accurato. - Risoluzione di equazioni matematiche complesse
- Elaborazione e analisi precise dei dati di testo
Contesto URL Chiedi al modello di leggere e analizzare i contenuti di pagine web o documenti specifici. - Rispondere a domande basate su URL o documenti specifici
- Recuperare informazioni su diverse pagine web
Utilizzo del computer (anteprima) Consenti a Gemini di visualizzare una schermata e generare azioni per interagire con le UI dei browser web (esecuzione lato client). - Automatizzare i flussi di lavoro ripetitivi basati sul web
- Testare le interfacce utente delle applicazioni web
Ricerca file Indicizza e cerca i tuoi documenti per attivare la Retrieval Augmented Generation (RAG). - Ricerca di manuali tecnici
- Risposta a domande su dati proprietari

Per informazioni dettagliate sui costi associati a strumenti specifici, consulta la pagina dei prezzi.

Come funziona l'esecuzione degli strumenti

Gli strumenti consentono al modello di richiedere azioni durante una conversazione. Il flusso varia a seconda che lo strumento sia integrato (gestito da Google) o personalizzato (gestito da te).

Flusso dello strumento integrato

Per gli strumenti integrati come la Ricerca Google o l'esecuzione di codice, l'intero processo avviene con una sola chiamata API:

  1. Tu invii un prompt: "Qual è la radice quadrata dell'ultima quotazione azionaria di GOOG?"
  2. Gemini decide di aver bisogno di strumenti e li esegue sui server di Google (ad es. cerca il prezzo delle azioni, quindi esegue il codice Python per calcolare la radice quadrata).
  3. Gemini restituisce la risposta finale basata sui risultati dello strumento.

Flusso di strumenti personalizzato (chiamata di funzione)

Per gli strumenti personalizzati e l'utilizzo del computer, l'applicazione gestisce l'esecuzione:

  1. Tu invii un prompt insieme alle dichiarazioni delle funzioni (strumenti).
  2. Gemini potrebbe restituire un JSON strutturato per chiamare una funzione specifica (ad esempio, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Tu esegui la funzione nella tua applicazione o nel tuo ambiente.
  4. Tu invii i risultati della funzione a Gemini.
  5. Gemini utilizza i risultati per generare una risposta finale o un'altra chiamata allo strumento.

Scopri di più nella guida alla chiamata di funzione.

Output strutturati e chiamata di funzioni

Gemini offre due metodi per generare output strutturati. Utilizza la chiamata di funzioni quando il modello deve eseguire un passaggio intermedio connettendosi ai tuoi strumenti o sistemi di dati. Utilizza Output strutturati quando hai bisogno che la risposta finale del modello rispetti rigorosamente uno schema specifico, ad esempio per il rendering di un'interfaccia utente personalizzata.

Creare agenti

Gli agenti sono sistemi che utilizzano modelli e strumenti per completare attività in più passaggi. Sebbene Gemini fornisca le funzionalità di ragionamento (il "cervello") e gli strumenti essenziali (le "mani"), spesso è necessario un framework di orchestrazione per gestire la memoria dell'agente, pianificare i loop ed eseguire il concatenamento complesso degli strumenti.

Gemini si integra con i principali framework di agenti open source:

  • LangChain / LangGraph: crea flussi di applicazioni complessi e con stato e sistemi multi-agente utilizzando strutture grafiche.
  • LlamaIndex: connetti gli agenti Gemini ai tuoi dati privati per flussi di lavoro migliorati con RAG.
  • CrewAI: orchestra agenti AI autonomi collaborativi e di role-playing.
  • Vercel AI SDK: crea interfacce utente e agenti basati sull'AI in JavaScript/TypeScript.
  • Google ADK: un framework open source per la creazione e l'orchestrazione di agenti AI interoperabili.