Lihat di ai.google.dev | Menjalankan di Google Colab | Lihat sumber di GitHub |
Gemini API mendukung prompting dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai prompting multimodal, yang berarti Anda dapat menyertakan jenis file media tersebut dalam prompt Anda. Untuk file kecil, Anda dapat mengarahkan model Gemini langsung ke file lokal saat memberikan perintah. Upload file yang lebih besar dengan File API sebelum menyertakannya dalam perintah.
File API memungkinkan Anda menyimpan file hingga 20 GB per project, dengan setiap file tidak melebihi 2 GB. File disimpan selama 48 jam dan dapat diakses dengan kunci API Anda untuk pembuatan dalam jangka waktu tersebut, dan tidak dapat didownload dari API. Files API tersedia tanpa biaya di semua region tempat Gemini API tersedia.
File API menangani input yang dapat digunakan untuk membuat konten dengan
model.generateContent
atau model.streamGenerateContent
. Untuk informasi tentang
format file yang valid (jenis MIME) dan model yang didukung, lihat
Format file yang didukung.
Panduan ini menunjukkan cara menggunakan File API untuk mengupload file media dan menyertakannya
dalam panggilan GenerateContent
ke Gemini API. Untuk mengetahui informasi selengkapnya, lihat
contoh kode.
Format file yang didukung
Model Gemini mendukung perintah dengan berbagai format file. Bagian ini menjelaskan pertimbangan dalam menggunakan format media umum untuk perintah, khususnya file gambar, audio, video, dan teks biasa. Anda dapat menggunakan file media untuk meminta perintah hanya dengan versi model tertentu, seperti yang ditunjukkan dalam tabel berikut.
Model | Gambar | Audio | Video | Teks biasa |
---|---|---|---|---|
Gemini 1.5 Pro (rilis 008 dan yang lebih baru) | ✔ (maksimal 3600 file gambar) | ✔ | ✔ | ✔ |
Gemini Pro Vision | ✔ (16 file gambar maksimal) | ✔ |
Format gambar
Anda dapat menggunakan data gambar untuk prompting dengan model gemini-pro-vision
dan
gemini-1.5-pro
. Jika Anda menggunakan gambar untuk perintah, gambar tersebut tunduk pada
batasan dan persyaratan berikut:
- Gambar harus berupa salah satu data gambar
jenis MIME berikut:
- PNG - gambar/png
- JPEG - gambar/jpeg
- WEBP - gambar/webp
- HEIC - gambar/heic
- HEIF - gambar/heif
- Maksimum 16 gambar individual untuk gambar
gemini-pro-vision
dan gambar 3600 untukgemini-1.5-pro
- Tidak ada batas khusus jumlah piksel dalam gambar; namun, gambar yang lebih besar akan diperkecil agar sesuai dengan resolusi maksimum 3072x3072 dengan tetap mempertahankan rasio aspek aslinya.
Format audio
Anda dapat menggunakan data audio untuk memberikan perintah dengan model gemini-1.5-pro
. Saat Anda
menggunakan audio untuk perintah, audio tersebut tunduk pada batasan dan
persyaratan berikut:
- Data audio didukung dalam jenis MIME format audio umum berikut:
- WAV - audio/wav
- MP3 - audio/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - audio/ogg
- FLAC - audio/flac
- Panjang maksimum data audio yang didukung dalam satu perintah adalah 9,5 jam.
- File audio di-resampling menjadi resolusi data 16 Kbps, dan beberapa saluran audio digabungkan menjadi satu saluran.
- Tidak ada batasan khusus jumlah file audio dalam satu perintah; namun, total durasi gabungan semua file audio dalam satu perintah tidak boleh lebih dari 9,5 jam.
Format video
Anda dapat menggunakan data video untuk memberikan perintah dengan model gemini-1.5-pro
.
Data video didukung dalam jenis MIME format video umum berikut:
- video/mp4
- video/mpeg
- video/mov
- video/avi
- video/x-flv
- video/mpg
- video/webm
- video/wmv
- video/3gpp
Layanan File API mengambil sampel video ke dalam gambar pada kecepatan 1 frame per detik (FPS) dan dapat berubah untuk memberikan kualitas inferensi terbaik. Setiap gambar memerlukan 258 token, terlepas dari resolusi dan kualitas.
Format teks biasa
File API mendukung upload file teks biasa dengan jenis MIME berikut:
- text/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- teks/skrip ketik x
- application/skrip-jenis x
- teks/csv
- teks/markdown
- teks/x-python
- application/x-python-code
- application/json
- text/xml
- application/rtf
- teks/rtf
Untuk file teks biasa dengan jenis MIME yang tidak ada dalam daftar, Anda dapat mencoba menentukan salah satu jenis MIME di atas secara manual.