Gemini API dapat menjalankan inferensi pada gambar dan video yang diteruskan ke Gemini API. Jika lulus gambar, serangkaian gambar, atau video, Gemini dapat:
- Jelaskan atau jawab pertanyaan tentang konten
- Rangkum konten
- Ekstrapolasi dari konten
Tutorial ini menunjukkan beberapa kemungkinan cara untuk menjalankan perintah Gemini API dengan input gambar dan video. Semua output hanya berupa teks.
Langkah berikutnya
Panduan ini menunjukkan cara menggunakan
generateContent
dan
untuk menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut,
lihat referensi berikut:
- Membuat perintah dengan file media: Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang dikenal sebagai multimodal prompting.
- Petunjuk sistem: Sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan Anda.
- Panduan keamanan: Terkadang AI generatif menghasilkan output yang tidak diharapkan, misalnya output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manual sangat penting untuk membatasi risiko bahaya dari {i>output<i} tersebut.