Esplora le funzionalità di visione con l'API Gemini

L'API Gemini è in grado di elaborare immagini e video, consentendo una moltitudine di emozionanti casi d'uso per gli sviluppatori. Alcune delle funzionalità di visione di Gemini includono la possibilità di:

  • Aggiungere didascalie e rispondere a domande sulle immagini
  • Trascrivere e ragionare sui PDF, inclusi i documenti lunghi fino a una finestra contestuale di 2 milioni di token
  • Descrivere, segmentare ed estrarre informazioni da video, inclusi frame visivi e audio, di durata massima di 90 minuti
  • Rileva gli oggetti in un'immagine e restituisce le coordinate dei relativi riquadri di delimitazione

Questo tutorial mostra alcuni modi possibili per richiedere all'API Gemini di elaborare immagini e input video, fornisce esempi di codice e illustra le best practice per i prompt con funzionalità di visione multimodale. Tutto l'output è solo di testo.

Passaggi successivi

Questa guida mostra come caricare file di immagini e video utilizzando l'API File e poi generare output di testo da input di immagini e video. Per saperne di più, consulta le seguenti risorse:

  • Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
  • Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
  • Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output inaspettati, ad esempio imprecisi, biassati o offensivi. Il post-trattamento e la valutazione umana sono essenziali per limitare il rischio di danni derivanti da questi output.