Gemini می تواند به درخواست های مربوط به صدا پاسخ دهد. به عنوان مثال، Gemini می تواند:
- درباره محتوای صوتی توضیح دهید، خلاصه کنید یا به سؤالات پاسخ دهید.
- یک رونویسی از صدا ارائه دهید.
- پاسخ یا رونویسی در مورد بخش خاصی از صدا ارائه دهید.
این راهنما راههای مختلف تعامل با فایلهای صوتی و محتوای صوتی را با استفاده از Gemini API نشان میدهد.
فرمت های صوتی پشتیبانی شده
Gemini از انواع فرمت های صوتی MIME زیر پشتیبانی می کند:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
جزئیات فنی در مورد صدا
Gemini قوانین زیر را بر روی صدا اعمال می کند:
- Gemini هر ثانیه از صدا را به عنوان 25 نشانه نشان می دهد. برای مثال، یک دقیقه صدا به صورت 1500 توکن نشان داده می شود.
- جمینی فقط می تواند پاسخ به گفتار انگلیسی زبان را استنباط کند.
- جوزا می تواند اجزای غیر گفتاری مانند آواز پرندگان یا آژیرها را "درک" کند.
- حداکثر طول پشتیبانی از داده های صوتی در یک فرمان 9.5 ساعت است. Gemini تعداد فایل های صوتی را در یک اعلان محدود نمی کند. با این حال، مجموع طول کل فایل های صوتی در یک فرمان نمی تواند از 9.5 ساعت تجاوز کند.
- Gemini فایل های صوتی را با وضوح داده 16 کیلوبیت بر ثانیه پایین می آورد.
- اگر منبع صوتی دارای چندین کانال باشد، Gemini آن کانال ها را به یک کانال تبدیل می کند.
بعدش چی
این راهنما نحوه آپلود فایل های صوتی با استفاده از File API و سپس تولید خروجی متن از ورودی های صوتی را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:
- استراتژیهای درخواست فایل : Gemini API از درخواست با دادههای متنی، تصویری، صوتی و ویدیویی پشتیبانی میکند که به عنوان درخواست چندوجهی نیز شناخته میشود.
- دستورالعملهای سیستم : دستورالعملهای سیستم به شما امکان میدهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
- راهنمایی ایمنی : گاهی اوقات مدلهای هوش مصنوعی تولیدی خروجیهای غیرمنتظره مانند خروجیهای نادرست، جانبدارانه یا توهینآمیز تولید میکنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجیهایی ضروری است.