Mempelajari kemampuan visi dengan Gemini API

Lihat di ai.google.dev Berjalan di Google Colab Lihat sumber di GitHub

Gemini API dapat menjalankan inferensi pada gambar dan video yang diteruskan ke Gemini API. Saat menerima gambar, serangkaian gambar, atau video, Gemini dapat:

  • Jelaskan atau jawab pertanyaan tentang konten
  • Rangkum konten
  • Ekstrapolasi dari konten

Tutorial ini menunjukkan beberapa kemungkinan cara untuk memerintahkan Gemini API dengan input video dan gambar. Semua output berupa teks saja.

Langkah selanjutnya

Panduan ini menunjukkan cara menggunakan generateContent dan untuk menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut, lihat referensi berikut:

  • Perintah dengan file media: Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
  • Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan spesifik Anda.
  • Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manual sangat penting untuk membatasi risiko bahaya dari output tersebut.