L'API Gemini può eseguire l'inferenza su immagini e video trasmessi. Una volta superato un'immagine, una serie di immagini o un video, Gemini può:
- Descrivi o rispondi a domande sui contenuti
- Riepiloga i contenuti
- Estrapola dai contenuti
Questo tutorial mostra alcuni possibili modi per inviare prompt all'API Gemini con immagini e input video. Tutto l'output è di solo testo.
Passaggi successivi
Questa guida illustra come utilizzare
generateContent
e
per generare output di testo da input di immagini e video. Per saperne di più,
consulta le seguenti risorse:
- Prompt con file multimediali: L'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti come prompt multimodali.
- Istruzioni di sistema: System le istruzioni consentono di orientare il comportamento del modello in base alle esigenze e casi d'uso.
- Indicazioni per la sicurezza: A volte, l'IA generativa i modelli producono output inaspettati, ad esempio output imprecisi, di parte oppure offensivi. La post-elaborazione e la valutazione umana sono essenziali limitare il rischio di danni derivanti da questi output.