قابلیت‌های صوتی را با Gemini API کاوش کنید

Gemini می تواند به درخواست های مربوط به صدا پاسخ دهد. به عنوان مثال، Gemini می تواند:

  • درباره محتوای صوتی توضیح دهید، خلاصه کنید یا به سؤالات پاسخ دهید.
  • یک رونویسی از صدا ارائه دهید.
  • پاسخ یا رونویسی در مورد بخش خاصی از صدا ارائه دهید.

این راهنما راه های مختلفی را نشان می دهد:

  • انتقال صدا به مدل Gemini.
  • مدل Gemini را در مورد صدا درخواست کنید.

فرمت های صوتی پشتیبانی شده

Gemini از انواع فرمت های صوتی MIME زیر پشتیبانی می کند:

  • WAV - صدا / موج
  • MP3 - صوتی/mp3
  • AIFF - صوتی/aiff
  • AAC - صوتی/aac
  • OGG Vorbis - صدا/ogg
  • FLAC - صوتی/flac

جزئیات فنی در مورد صدا

Gemini قوانین زیر را بر روی صدا اعمال می کند:

  • Gemini هر ثانیه از صدا را به عنوان 25 نشانه نشان می دهد. برای مثال، یک دقیقه صدا به صورت 1500 توکن نشان داده می شود.
  • جمینی فقط می تواند پاسخ به گفتار انگلیسی زبان را استنباط کند.
  • جوزا می تواند اجزای غیر گفتاری مانند آواز پرندگان یا آژیرها را "درک" کند.
  • حداکثر طول پشتیبانی از داده های صوتی در یک فرمان 9.5 ساعت است. Gemini تعداد فایل های صوتی را در یک اعلان محدود نمی کند. با این حال، مجموع طول کل فایل های صوتی در یک فرمان نمی تواند از 9.5 ساعت تجاوز کند.
  • Gemini فایل های صوتی را با وضوح داده 16 کیلوبیت بر ثانیه پایین می آورد.
  • اگر منبع صوتی دارای چندین کانال باشد، Gemini آن کانال ها را به یک کانال تبدیل می کند.