Gemini API ile ses özelliklerini keşfedin

Gemini, sesle ilgili istemlere yanıt verebilir. Örneğin, Gemini şunları yapabilir:

  • Ses içeriği hakkındaki soruları açıklayın, özetleyin veya yanıtlayın.
  • Sesin transkriptini sağlayın.
  • Sesin belirli bir bölümüyle ilgili yanıtlar veya konuşma metni sağlayın.

Bu kılavuzda, aşağıdakileri yapmanın farklı yolları gösterilmektedir:

  • Sesi Gemini modeline iletin.
  • Gemini modeline sesle ilgili bilgi isteyin.

Desteklenen ses biçimleri

Gemini aşağıdaki ses biçimi MIME türlerini destekler:

  • WAV - ses/wav
  • MP3 - ses/mp3
  • AIFF - ses/aiff
  • AAC - ses/aac
  • OGG Vorbis - ses/ogg
  • FLAC - ses/flac

Ses hakkında teknik ayrıntılar

Gemini, ses ile ilgili şu kuralları uygular:

  • Gemini, sesin her saniyesini 25 jeton olarak temsil eder. Örneğin,bir dakikalık ses 1.500 jeton olarak temsil edilir.
  • Gemini yalnızca İngilizce konuşmalara yanıt verebilir.
  • Gemini, kuş sesleri veya sirenler gibi konuşma dışı bileşenleri "anlayabilir".
  • Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir. Gemini, tek bir istemdeki ses dosyalarının sayısını sınırlamaz ancak tek bir istemdeki tüm ses dosyalarının toplam uzunluğu 9,5 saati aşamaz.
  • Gemini, ses dosyalarını 16 Kb/sn veri çözünürlüğüne düşürür.
  • Ses kaynağı birden fazla kanal içeriyorsa Gemini bu kanalları tek bir kanalda birleştirir.