ai.google.dev'de göster | Google Colab'de çalıştır | Kaynağı GitHub'da görüntüle |
Gemini API, çok modlu istem olarak da bilinen metin, resim, ses ve video verileriyle istem göndermeyi destekler. Yani bu tür medya dosyalarını istemlerinize ekleyebilirsiniz. Küçük dosyalar için istem sağlarken Gemini modelini doğrudan yerel bir dosyaya yönlendirebilirsiniz. Daha büyük dosyaları, istemlere dahil etmeden önce Dosya API'si ile yükleyin.
File API, her bir dosyanın boyutu 2 GB'ı aşmayacak şekilde proje başına 20 GB'a kadar dosya depolamanıza olanak tanır. Dosyalar 48 saat boyunca saklanır ve bu süre içinde oluşturma işlemi için API anahtarınızla erişilebilir ve API'den indirilemez. Files API, Gemini API'nin kullanılabildiği tüm bölgelerde ücretsiz olarak kullanılabilir.
File API, model.generateContent
veya model.streamGenerateContent
ile içerik oluşturmak için kullanılabilecek girişleri işler. Geçerli dosya biçimleri (MIME türleri) ve desteklenen modeller hakkında bilgi için Desteklenen dosya biçimleri bölümüne bakın.
Bu kılavuzda, medya dosyalarını yüklemek ve Gemini API'ye yapılan bir GenerateContent
çağrısına dahil etmek için File API'nin nasıl kullanılacağı gösterilmektedir. Daha fazla bilgi için kod örneklerine bakın.
Desteklenen dosya biçimleri
Gemini modelleri, birden fazla dosya biçimiyle istemleri destekler. Bu bölümde, özellikle resim, ses, video ve düz metin dosyaları olmak üzere istem için genel medya biçimlerinin kullanımıyla ilgili dikkat edilmesi gereken noktalar açıklanmaktadır. Aşağıdaki tabloda gösterildiği gibi, yalnızca belirli model sürümleriyle istemde bulunmak için medya dosyalarını kullanabilirsiniz.
Model | Resimler | Ses | Video | Düz metin |
---|---|---|---|---|
Gemini 1.5 Pro (sürüm 008 ve sonraki sürümler) | ✔ (maksimum 3.600 resim dosyası) | ✔ | ✔ | ✔ |
Resim biçimleri
Gemini 1.5 modelleriyle istemde bulunmak için resim verilerini kullanabilirsiniz. Resimleri istem amacıyla kullandığınızda bu resimler aşağıdaki sınırlamalara ve şartlara tabidir:
- Resimler aşağıdaki resim verisi MIME türlerinden birinde olmalıdır:
- PNG - resim/png
- JPEG - resim/jpeg
- WEBP - resim/webp
- HEIC - resim/heik
- HEIF - resim/heif
- Gemini 1.5 modelleri için maksimum 3.600 resim.
- Bir resimdeki piksel sayısıyla ilgili belirli bir sınır yoktur. Ancak, daha büyük resimler orijinal en boy oranları korunarak maksimum 3072 x 3072 çözünürlüğe sığacak şekilde küçültülür.
Ses biçimleri
Gemini 1.5 modelleriyle istemde bulunmak için ses verilerini kullanabilirsiniz. İstemlerde ses kullandığınızda bu kullanımlar aşağıdaki kısıtlama ve şartlara tabidir:
- Ses verileri, aşağıdaki yaygın ses biçimi MIME türlerinde desteklenir:
- WAV - ses/wav
- MP3 - ses/mp3
- AIFF - ses/aiff
- AAC - ses/aac
- OGG Vorbis - ses/ogg
- FLAC - ses/flac
- Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir.
- Ses dosyaları 16 Kb/sn veri çözünürlüğüne indirilerek yeniden örneklenir ve birden fazla ses kanalı tek bir kanalda birleştirilir.
- Tek bir istemdeki ses dosyası sayısıyla ilgili belirli bir sınır yoktur.Ancak tek bir istemdeki tüm ses dosyalarının toplam uzunluğu 9, 5 saati aşamaz.
Video biçimleri
Gemini 1.5 modelleriyle istem göndermek için video verilerini kullanabilirsiniz.
Video verileri, aşağıdaki yaygın video biçimi MIME türlerinde desteklenir:
- video/mp4
- video/mpeg
- video/taşıma
- video/avi
- video/x-flv
- video/mpg
- video/webm
- video/wmv
- video/3Gpp
File API hizmeti, videoları saniyede 1 kare (FPS) hızında görüntüler halinde örnekler ve en iyi çıkarım kalitesini sağlamak için değiştirilebilir. Çözünürlük ve kaliteden bağımsız olarak tek tek resimler 258 jeton alır.
Düz metin biçimleri
File API, aşağıdaki MIME türlerine sahip düz metin dosyalarının yüklenmesini destekler:
- metin/düz
- text/html
- text/css
- text/javascript
- application/x-javascript
- metin/x-typescript
- uygulama/x-typescript
- metin/csv
- metin/işaretleme
- metin/x-python
- application/x-python-code
- application/json
- text/xml
- uygulama/rtf
- metin/rtf
MIME türü listede olmayan düz metin dosyaları için yukarıdaki MIME türlerinden birini manuel olarak belirtmeyi deneyebilirsiniz.