Gemini, sesle ilgili istemlere yanıt verebilir. Örneğin, Gemini şunları yapabilir:
- Ses içeriği hakkındaki soruları açıklayın, özetleyin veya yanıtlayın.
- Sesin transkriptini sağlayın.
- Sesin belirli bir bölümüyle ilgili yanıtlar veya konuşma metni sağlayın.
Bu kılavuzda, aşağıdakileri yapmanın farklı yolları gösterilmektedir:
- Sesi Gemini modeline iletin.
- Gemini modeline sesle ilgili bilgi isteyin.
Desteklenen ses biçimleri
Gemini aşağıdaki ses biçimi MIME türlerini destekler:
- WAV - ses/wav
- MP3 - ses/mp3
- AIFF - ses/aiff
- AAC - ses/aac
- OGG Vorbis - ses/ogg
- FLAC - ses/flac
Ses hakkında teknik ayrıntılar
Gemini, ses ile ilgili şu kuralları uygular:
- Gemini, sesin her saniyesini 25 jeton olarak temsil eder; örneğin, bir dakikalık ses 1.500 jeton olarak temsil edilir.
- Gemini yalnızca İngilizce konuşmalara yanıt verebilir.
- Gemini "anlayabilir" kuş sesleri veya sirenler gibi konuşma dışı bileşenler.
- Tek bir istemde desteklenen maksimum ses verisi uzunluğu 9,5 saattir. Gemini, tek bir istemdeki ses dosyasının sayısını sınırlamaz; ancak, tek bir istemdeki tüm ses dosyalarının toplam birleşik uzunluğu en fazla olabilir 9,5 saat.
- Gemini, ses dosyalarını 16 Kb/sn veri çözünürlüğüne düşürür.
- Ses kaynağı birden fazla kanal içeriyorsa Gemini bu kanalları birleştirir. tek bir kanala yönlendirebilirsiniz.