Gemma 4, model terbaru dari rangkaian model Gemma, dapat melakukan berbagai tugas vision-language seperti deteksi objek, Pengenalan Karakter Optik (OCR), visual question answering, pemberian keterangan gambar, dan penalaran di beberapa gambar. Alat ini juga mendukung pemrosesan resolusi variabel, sehingga Anda dapat menyeimbangkan kecepatan inferensi dan akurasi output.
Bagian ini membahas cara menyiapkan dan menggunakan data visual secara efektif dalam perintah Anda.
Data visual
Data visual dapat hadir dalam berbagai format dan resolusi. Format file tertentu yang didukung (seperti JPEG dan PNG) bergantung pada framework yang Anda pilih untuk mengonversi data visual menjadi tensor.
Berikut adalah pertimbangan utama saat menyiapkan data visual untuk Gemma:
- Biaya token: Setiap gambar biasanya menggunakan 256 token, meskipun biaya token gambar PaliGemma bervariasi bergantung pada model tertentu yang dipilih.
- Resolusi: Resolusi yang diinterpretasikan—yang berarti jumlah piksel yang dienkode ke dalam token dan diproses oleh model—bergantung pada versi Gemma yang Anda gunakan:
- Gemma 4: Resolusi variabel berdasarkan anggaran token. Anda dapat memutuskan antara ukuran anggaran 70, 140, 280, 560, atau 1.120 token, yang menentukan seberapa besar gambar input diubah ukurannya dan diproses.
- Gemma 3: (4B dan yang lebih tinggi) Resolusi 896x896, dengan opsi pan-and-scan untuk gambar yang lebih besar.
- Gemma 3n: resolusi 256x256, 512x512, atau 768x768
- PaliGemma 2: Resolusi 224x224, 448x448, atau 896x896
Gambar beresolusi lebih rendah diproses lebih cepat, tetapi menangkap lebih sedikit detail visual. Untuk mengoptimalkan kecepatan inferensi, Anda harus berupaya memberikan data visual yang cocok dengan salah satu resolusi yang diinterpretasikan bawaan dari model Gemma yang Anda pilih.
Resolusi variabel dan anggaran token
Model Gemma 4 memperkenalkan kemampuan untuk memproses gambar dalam berbagai resolusi, sehingga Anda dapat menyesuaikan input visual dengan tugas tertentu. Misalnya, Anda dapat memilih resolusi tinggi untuk menunjukkan detail kecil dalam deteksi objek, sedangkan resolusi yang lebih rendah mungkin lebih disukai untuk menganalisis setiap frame video guna mempercepat pemrosesan. Pada akhirnya, fitur ini memungkinkan Anda menyeimbangkan kecepatan inferensi dengan akurasi representasi visual.
Anda mengelola kompromi ini menggunakan anggaran token. Anggaran ini menetapkan batas ketat pada jumlah token visual (juga dikenal sebagai sematan token visual) yang dapat dibuat model untuk satu gambar.
Anda dapat memilih anggaran 70, 140, 280, 560, atau 1.120 token:
- Anggaran tinggi (misalnya, 1.120 token): Mempertahankan resolusi gambar yang lebih tinggi. Hal ini menghasilkan lebih banyak patch untuk diproses model, sehingga ideal untuk mendapatkan detail yang halus dan rumit.
- Anggaran rendah (misalnya, 70 token): Mengecilkan gambar, sehingga menghasilkan lebih sedikit patch. Hal ini mempercepat waktu inferensi secara signifikan.
Cara kerja anggaran Anggaran token secara langsung mengontrol seberapa besar ukuran gambar diubah dengan menentukan jumlah maksimum patch gambar awal. Sistem membuat sembilan kali lebih banyak patch daripada anggaran yang Anda pilih. Misalnya, anggaran 280 token menghasilkan hingga 2.520 patch (280 × 9).
Pengali 9 ada karena cara patch dikompresi: selama pemrosesan, model mengambil setiap petak 3x3 dari patch yang berdekatan dan merata-ratakannya untuk membuat satu penyematan. Embedding gabungan ini menjadi token visual akhir Anda. Oleh karena itu, anggaran token yang lebih tinggi menghasilkan lebih banyak sematan akhir, sehingga model dapat mengekstrak informasi yang lebih kaya dan terperinci dari data visual Anda.
Anjuran
Berikut beberapa praktik terbaik yang harus diikuti saat memberikan perintah kepada Gemma dengan data visual.
Bersikap spesifik: Jika Anda memiliki tugas tertentu, berikan konteks dan panduan yang memadai. Daripada "deskripsikan gambar ini", coba "deskripsikan suasana dalam gambar ini, dengan berfokus pada hubungan antara orang dan objek".
Berikan batasan: Untuk mendapatkan gaya atau nada tertentu, pastikan Anda menentukannya dalam perintah Anda. Misalnya, alih-alih permintaan cerita umum, minta Gemma untuk "Menulis cerita pendek tentang gambar ini dengan gaya film noir".
Penyempurnaan Iteratif: Untuk mendapatkan output yang diinginkan, sering kali diperlukan eksperimen dan penyempurnaan perintah. Mulai dengan perintah dasar dan tambahkan kompleksitas secara bertahap.
Larangan
Berikut beberapa hal yang harus dihindari saat memberikan perintah kepada Gemma dengan data visual.
Mengharapkan Jumlah yang Akurat untuk Objek yang Sangat Padat: Meskipun unggul dalam deteksi objek dan OCR, Gemma 4 mungkin masih memberikan perkiraan, bukan jumlah yang akurat untuk objek yang sangat padat atau kecil (seperti menghitung setiap helai rumput). Untuk mencapai akurasi terbaik untuk tugas visual, gunakan anggaran token yang lebih tinggi.
Perintah yang Tidak Jelas atau Ambigu: Alih-alih menggunakan perintah umum seperti "Buat sesuatu berdasarkan gambar ini", berikan petunjuk spesifik untuk mendapatkan output yang diinginkan. Tentukan dengan jelas apa yang dimaksud dengan "sesuatu". Misalnya, puisi, resep, atau cuplikan kode.