Lihat di ai.google.dev | Berjalan di Google Colab | Lihat sumber di GitHub |
Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai pembuatan perintah multimodal, yang berarti Anda dapat menyertakan jenis file media tersebut dalam perintah Anda. Untuk file kecil, Anda bisa mengarahkan model Gemini langsung ke file lokal saat memberikan perintah. Upload file yang lebih besar dengan File API sebelum menyertakannya pada perintah.
Dengan File API, Anda dapat menyimpan file hingga 20 GB per project, dengan setiap file berukuran tidak melebihi 2 GB. File disimpan selama 48 jam dan dapat diakses dengan kunci API Anda untuk dibuat dalam jangka waktu tersebut, dan tidak dapat didownload dari API. Files API tersedia secara gratis di semua wilayah tempat Gemini API tersedia.
File API menangani input yang dapat digunakan untuk menghasilkan konten dengan
model.generateContent
atau model.streamGenerateContent
. Untuk mengetahui informasi tentang
format file yang valid (jenis MIME) dan model yang didukung, lihat Format file
yang didukung.
Panduan ini menunjukkan cara menggunakan File API untuk mengupload file media dan menyertakannya
dalam panggilan GenerateContent
ke Gemini API. Untuk mengetahui informasi selengkapnya, lihat
contoh
kode.
Format file yang didukung
Model Gemini mendukung pembuatan perintah dengan berbagai format file. Bagian ini menjelaskan pertimbangan dalam menggunakan format media umum untuk permintaan, khususnya file gambar, audio, video, dan teks biasa. Anda dapat menggunakan file media hanya untuk perintah dengan versi model tertentu, seperti yang ditunjukkan pada tabel berikut.
Model | Gambar | Audio | Video | Teks biasa |
---|---|---|---|---|
Gemini 1.5 Pro (rilis 008 dan yang lebih baru) | ✔ (file gambar maksimal 3600) | ✔ | ✔ | ✔ |
Format gambar
Anda dapat menggunakan data gambar untuk membuat perintah dengan model Gemini 1.5. Saat Anda menggunakan gambar untuk perintah, hal tersebut tunduk pada batasan dan persyaratan berikut:
- Gambar harus berupa salah satu jenis
MIME data gambar berikut:
- PNG - gambar/png
- JPEG - gambar/jpeg
- WEBP - gambar/webp
- HEIC - image/heic
- HEIF - gambar/heif
- Maksimum 3600 gambar untuk model Gemini 1.5.
- Tidak ada batasan khusus untuk jumlah piksel dalam gambar; namun, gambar yang lebih besar akan diperkecil agar sesuai dengan resolusi maksimum 3072 x 3072 dengan mempertahankan rasio aspek aslinya.
Format audio
Anda dapat menggunakan data audio untuk membuat perintah dengan model Gemini 1.5. Saat Anda menggunakan audio untuk membuat perintah, keduanya tunduk pada batasan dan persyaratan berikut:
- Data audio didukung dalam jenis
MIME format audio umum berikut:
- WAV - audio/wav
- MP3 - audio/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - audio/ogg
- FLAC - audio/flac
- Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam.
- File audio diambil ulang sampelnya menjadi resolusi data 16 Kbps, dan beberapa saluran audio digabungkan ke dalam satu saluran.
- Tidak ada batasan khusus untuk jumlah file audio dalam satu perintah; tetapi total durasi gabungan semua file audio dalam satu prompt tidak boleh melebihi 9, 5 jam.
Format video
Anda dapat menggunakan data video untuk membuat perintah dengan model Gemini 1.5.
Data video didukung dalam jenis MIME format video umum berikut:
- video/mp4
- video/mpeg
- video/mov
- video/avi
- video/x-flv
- video/mpg
- video/webm
- video/wmv
- video/3gpp
Layanan File API mengambil sampel video ke dalam gambar pada 1 frame per detik (FPS) dan dapat berubah sewaktu-waktu untuk memberikan kualitas inferensi terbaik. Setiap gambar menggunakan 258 token terlepas dari resolusi dan kualitas.
Format teks biasa
File API mendukung upload file teks biasa dengan jenis MIME berikut:
- text/plain
- text/html
- text/css
- text/javascript
- application/x-javascript
- teks/jenis skrip x
- aplikasi/x-typescript
- teks/csv
- teks/markdown
- teks/python-x
- application/x-python-code
- application/json
- text/xml
- aplikasi/rtf
- teks/rtf
Untuk file teks biasa dengan jenis MIME tidak ada dalam daftar, Anda dapat mencoba menentukan salah satu jenis MIME di atas secara manual.