قابلیت‌های صوتی را با Gemini API کاوش کنید

Gemini می تواند به درخواست های مربوط به صدا پاسخ دهد. به عنوان مثال، Gemini می تواند:

درباره محتوای صوتی توضیح دهید، خلاصه کنید یا به سؤالات پاسخ دهید.
یک رونویسی از صدا ارائه دهید.
پاسخ یا رونویسی در مورد بخش خاصی از صدا ارائه دهید.

این راهنما راه‌های مختلف تعامل با فایل‌های صوتی و محتوای صوتی را با استفاده از Gemini API نشان می‌دهد.

فرمت های صوتی پشتیبانی شده

Gemini از انواع فرمت های صوتی MIME زیر پشتیبانی می کند:

WAV - audio/wav
MP3 - audio/mp3
AIFF - audio/aiff
AAC - audio/aac
OGG Vorbis - audio/ogg
FLAC - audio/flac

جزئیات فنی در مورد صدا

Gemini قوانین زیر را بر روی صدا اعمال می کند:

Gemini هر ثانیه از صدا را به عنوان 25 نشانه نشان می دهد. برای مثال، یک دقیقه صدا به صورت 1500 توکن نشان داده می شود.
جمینی فقط می تواند پاسخ به گفتار انگلیسی زبان را استنباط کند.
جوزا می تواند اجزای غیر گفتاری مانند آواز پرندگان یا آژیرها را "درک" کند.
حداکثر طول پشتیبانی از داده های صوتی در یک فرمان 9.5 ساعت است. Gemini تعداد فایل های صوتی را در یک اعلان محدود نمی کند. با این حال، مجموع طول کل فایل های صوتی در یک فرمان نمی تواند از 9.5 ساعت تجاوز کند.
Gemini فایل های صوتی را با وضوح داده 16 کیلوبیت بر ثانیه پایین می آورد.
اگر منبع صوتی دارای چندین کانال باشد، Gemini آن کانال ها را به یک کانال تبدیل می کند.

بعدش چی

این راهنما نحوه آپلود فایل های صوتی با استفاده از File API و سپس تولید خروجی متن از ورودی های صوتی را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

استراتژی‌های درخواست فایل : Gemini API از درخواست با داده‌های متنی، تصویری، صوتی و ویدیویی پشتیبانی می‌کند که به عنوان درخواست چندوجهی نیز شناخته می‌شود.
دستورالعمل‌های سیستم : دستورالعمل‌های سیستم به شما امکان می‌دهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
راهنمایی ایمنی : گاهی اوقات مدل‌های هوش مصنوعی تولیدی خروجی‌های غیرمنتظره مانند خروجی‌های نادرست، جانبدارانه یا توهین‌آمیز تولید می‌کنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجی‌هایی ضروری است.