Mempelajari kemampuan visi dengan Gemini API

Gemini API dapat memproses gambar dan video, sehingga memungkinkan banyak kasus penggunaan developer yang menarik. Beberapa kemampuan visi Gemini mencakup kemampuan untuk:

  • Memberi teks dan menjawab pertanyaan tentang gambar
  • Mentranskripsikan dan membuat alasan atas PDF, termasuk dokumen panjang hingga jendela konteks 2 juta token
  • Menjelaskan, menyegmentasikan, dan mengekstrak informasi dari video, termasuk frame visual dan audio, berdurasi hingga 90 menit
  • Mendeteksi objek dalam gambar dan menampilkan koordinat kotak pembatas untuk objek tersebut

Tutorial ini menunjukkan beberapa kemungkinan cara untuk meminta Gemini API dengan input gambar dan video, memberikan contoh kode, dan menguraikan praktik terbaik perintah dengan kemampuan visi multimodal. Semua output hanya berupa teks.

Langkah berikutnya

Panduan ini menunjukkan cara mengupload file gambar dan video menggunakan File API, lalu menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut, lihat referensi berikut:

  • Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
  • Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.
  • Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manusia sangat penting untuk membatasi risiko bahaya dari output tersebut.