Medya dosyalarıyla istemde bulunma


ai.google.dev'de görüntüleyin Google Colab'de çalıştır Kaynağı GitHub'da görüntüleyin

Gemini API, çok modlu istem olarak da bilinen metin, görüntü, ses ve video verileriyle istemi destekler. Böylece bu tür medya dosyalarını istemlerinize ekleyebilirsiniz. Küçük dosyalar için, bir istem sağlarken Gemini modelini doğrudan yerel bir dosyaya yönlendirebilirsiniz. Daha büyük dosyaları istemlere eklemeden önce File API ile yükleyin.

File API, proje başına her bir dosyanın boyutu 2 GB'ı aşmayacak şekilde 20 GB'a kadar dosya depolamanıza olanak tanır. Dosyalar 48 saat boyunca saklanır, bu süre içinde oluşturulmak üzere API anahtarınızla erişilebilir ve API'den indirilemez. Files API, Gemini API'nin kullanılabildiği tüm bölgelerde ücretsiz olarak kullanılabilir.

File API, model.generateContent veya model.streamGenerateContent ile içerik oluşturmak için kullanılabilecek girişleri işler. Geçerli dosya biçimleri (MIME türleri) ve desteklenen modeller hakkında bilgi için Desteklenen dosya biçimleri bölümüne göz atın.

Bu kılavuzda, medya dosyalarını yüklemek ve Gemini API'ye yapılan bir GenerateContent çağrısına dahil etmek için File API'nin nasıl kullanılacağı gösterilmektedir. Daha fazla bilgi için kod örneklerine bakın.

Desteklenen dosya biçimleri

Gemini modelleri, birden fazla dosya biçimiyle istemi destekler. Bu bölümde, özellikle resim, ses, video ve düz metin dosyaları gibi istemler için genel medya biçimlerinin kullanımıyla ilgili dikkat edilmesi gereken noktalar açıklanmaktadır. Aşağıdaki tabloda gösterildiği gibi, yalnızca belirli model sürümlerinde istem kullanmak için medya dosyalarını kullanabilirsiniz.

Model Resimler Ses Video Düz metin
Gemini 1.5 Pro (008 ve sonraki sürümler) ✔ (maksimum 3600 resim dosyası)
Gemini Pro Vizyonu ✔ (maks. 16 resim dosyası)

Resim biçimleri

gemini-pro-vision ve gemini-1.5-pro modelleriyle istemde bulunmak için resim verilerini kullanabilirsiniz. İstem için resimleri kullandığınızda, bu resimler aşağıdaki sınırlamalara ve gereksinimlere tabidir:

  • Resimler, aşağıdaki görüntü verisi MIME türlerinden birinde olmalıdır:
    • PNG - resim/png
    • JPEG - resim/jpeg
    • WEBP - resim/webp
    • HEIC - resim/heic
    • HEIF - resim/heif
  • gemini-pro-vision için en fazla 16 ayrı resim ve gemini-1.5-pro için en fazla 3.600 görüntü
  • Bir resimdeki piksel sayısı için belirli bir sınırlama yoktur. Ancak, daha büyük resimler orijinal en boy oranı korunarak maksimum 3072 x 3072 çözünürlüğe uyacak şekilde ölçeklendirilir.

Ses biçimleri

gemini-1.5-pro modeliyle istemde bulunmak için ses verilerini kullanabilirsiniz. İstem için ses kullandığınızda bunlar aşağıdaki sınırlamalara ve gereksinimlere tabidir:

  • Ses verileri, şu yaygın ses biçimi olan MIME türlerinde desteklenir:
    • WAV - ses/wav
    • MP3 - ses/mp3
    • AIFF - ses/yapay zeka
    • AAC - ses/aac
    • OGG Vorbis - ses/ogg
    • FLAC - ses/flac
  • Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir.
  • Ses dosyaları 16 Kb/sn veri çözünürlüğüne göre yeniden örneklenir ve birden fazla ses kanalı tek bir kanalda birleştirilir.
  • Tek bir istemdeki ses dosyası sayısıyla ilgili belirli bir sınır yoktur ancak tek bir istemdeki tüm ses dosyalarının toplam uzunluğu 9, 5 saati aşamaz.

Video biçimleri

gemini-1.5-pro modeliyle istemde bulunmak için video verilerini kullanabilirsiniz.

  • Video verileri, şu yaygın video biçimi MIME türlerinde desteklenir:

    • video/mp4
    • video/mpeg
    • video/taşıma
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/wmv
    • video/3gpp
  • File API hizmeti, videoları saniyede 1 kare (FPS) hızında örneklerle görüntüler ve en iyi çıkarım kalitesini sağlamak için değiştirilebilir. Çözünürlük ve kaliteden bağımsız bağımsız resimler en fazla 258 jeton kullanabilir.

Düz metin biçimleri

File API aşağıdaki MIME türlerine sahip düz metin dosyalarının yüklenmesini destekler:

  • metin/düz
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • metin/x-typescript
  • uygulama/x-typescript
  • metin/csv
  • metin/işaretleme
  • metin/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • uygulama/rtf
  • text/rtf

MIME türü listede bulunmayan düz metin dosyaları için yukarıdaki MIME türlerinden birini manuel olarak belirtmeyi deneyebilirsiniz.