Esplora le funzionalità di visione con l'API Gemini
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
L'API Gemini può eseguire l'inferenza su immagini e video trasmessi. Una volta superato
un'immagine, una serie di immagini o un video, Gemini può:
Descrivi o rispondi a domande sui contenuti
Riepiloga i contenuti
Estrapola dai contenuti
Questo tutorial mostra alcuni possibili modi per inviare prompt all'API Gemini con
immagini e input video. Tutto l'output è di solo testo.
Passaggi successivi
Questa guida illustra come utilizzare
generateContent e
per generare output di testo da input di immagini e video. Per saperne di più,
consulta le seguenti risorse:
Prompt con file multimediali:
L'API Gemini supporta i prompt con dati di testo, immagini, audio e video,
noti come prompt multimodali.
Istruzioni di sistema: System
le istruzioni consentono di orientare il comportamento del modello in base alle
esigenze e casi d'uso.
Indicazioni per la sicurezza: A volte, l'IA generativa
i modelli producono output inaspettati, ad esempio output imprecisi,
di parte oppure offensivi. La post-elaborazione e la valutazione umana sono essenziali
limitare il rischio di danni
derivanti da questi output.