Gemini API ile ses özelliklerini keşfedin

Gemini, sesle ilgili istemlere yanıt verebilir. Örneğin, Gemini şunları yapabilir:

  • Ses içeriği hakkındaki soruları açıklayın, özetleyin veya yanıtlayın.
  • Sesin transkriptini sağlayın.
  • Sesin belirli bir segmentiyle ilgili yanıtlar veya konuşma metni sağlayın.

Bu kılavuzda, aşağıdakileri yapmanın farklı yolları gösterilmektedir:

  • Sesi Gemini modeline iletin.
  • Gemini modeline sesle ilgili bilgi isteyin.

Desteklenen ses biçimleri

Gemini aşağıdaki ses biçimi MIME türlerini destekler:

  • WAV - ses/wav
  • MP3 - ses/mp3
  • AIFF - ses/aiff
  • AAC - ses/aac
  • OGG Vorbis - ses/ogg
  • FLAC - ses/flac

Ses hakkında teknik ayrıntılar

Gemini, ses ile ilgili şu kuralları uygular:

  • Gemini, sesin her saniyesini 25 jeton olarak temsil eder; örneğin, bir dakikalık ses 1.500 jeton olarak temsil edilir.
  • Gemini yalnızca İngilizce konuşmalara yanıt verebilir.
  • Gemini "anlayabilir" kuş sesleri veya sirenler gibi konuşma dışı bileşenler.
  • Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir. Gemini, tek bir istemdeki ses dosyasının sayısını sınırlamaz; ancak, tek bir istemdeki tüm ses dosyalarının toplam birleşik uzunluğu en fazla olabilir 9,5 saat.
  • Gemini, ses dosyalarını 16 Kb/sn veri çözünürlüğüne düşürür.
  • Ses kaynağı birden fazla kanal içeriyorsa Gemini bu kanalları birleştirir. tek kanalla takip edebilirsiniz.