Lihat di ai.google.dev | Berjalan di Google Colab | Lihat sumber di GitHub |
Gemini API dapat menjalankan inferensi pada gambar dan video yang diteruskan ke Gemini API. Saat menerima gambar, serangkaian gambar, atau video, Gemini dapat:
- Jelaskan atau jawab pertanyaan tentang konten
- Rangkum konten
- Ekstrapolasi dari konten
Tutorial ini menunjukkan beberapa kemungkinan cara untuk memerintahkan Gemini API dengan input video dan gambar. Semua output berupa teks saja.
Langkah selanjutnya
Panduan ini menunjukkan cara menggunakan
generateContent
dan
untuk menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut,
lihat referensi berikut:
- Perintah dengan file media: Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
- Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan spesifik Anda.
- Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manual sangat penting untuk membatasi risiko bahaya dari output tersebut.