Esplora le funzionalità di visione con l'API Gemini

Visualizza su ai.google.dev Esegui in Google Colab Visualizza il codice sorgente su GitHub

L'API Gemini può eseguire l'inferenza su immagini e video trasmessi. Quando viene passata un'immagine, una serie di immagini o un video, Gemini può:

  • Descrivi o rispondi a domande sui contenuti
  • Riepiloga i contenuti
  • Estrapola dai contenuti

Questo tutorial illustra alcuni possibili modi per richiedere all'API Gemini input di immagini e video. Tutto l'output è di solo testo.

Passaggi successivi

Questa guida spiega come utilizzare generateContent e generare output di testo da input di immagini e video. Per saperne di più, consulta le seguenti risorse:

  • Prompt con file multimediali: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
  • Istruzioni di sistema: le istruzioni di sistema consentono di orientare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
  • Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output imprevisti, ad esempio imprecisi, bias o offensivi. La post-elaborazione e la valutazione umana sono essenziali per limitare il rischio di danni.