تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
يمكن لـ Gemini الردّ على الطلبات المتعلقة بالصوت. على سبيل المثال، بإمكان Gemini تنفيذ ما يلي:
قدِّم وصفًا للمحتوى الصوتي أو لخصه أو أجب عن أسئلة حوله.
قدِّم نصًا صوتيًا.
تقديم إجابات أو تحويل الصوت إلى نص حول مقطع معيّن من الصوت
يعرض هذا الدليل طرقًا مختلفة لتنفيذ ما يلي:
تمرير الصوت إلى نموذج Gemini
إرسال طلب إلى نموذج Gemini بشأن الصوت
التنسيقات الصوتية المتوافقة
يتيح Gemini استخدام أنواع MIME التالية بتنسيقات الصوت:
WAV - صوت/wav
MP3 - صوت/mp3
AIFF - صوت/الذكاء الاصطناعي (AI)
الترميز المتقدّم للصوت (AAC)
OGG Vorbis - صوت/ogg
FLAC - صوت/فلك
التفاصيل الفنية حول الصوت
يفرض Gemini القواعد التالية على المحتوى الصوتي:
يمثِّل Gemini كل ثانية من الصوت على شكل 25 رمزًا مميزًا على سبيل المثال،
تُمثل دقيقة واحدة من الصوت على شكل 1,500 رمز مميز.
يستطيع Gemini استنتاج الردود على الكلام باللغة الإنجليزية فقط.
بإمكان Gemini "فهم" المكونات بخلاف الكلام، مثل أغاني الطيور أو صفارات الإنذار
يبلغ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد 9.5 ساعات.
لا يضع Gemini حدًا لعدد الملفات الصوتية في طلب واحد. وَلَكِنْ
يجب ألّا يتجاوز إجمالي الطول المجمّع لكل الملفات الصوتية في طلب واحد
9.5 ساعات.
يستخدم Gemini عيّنات من الملفات الصوتية بدرجة دقة بيانات تبلغ 16 كيلوبت في الثانية.
إذا كان مصدر الصوت يتضمّن عدة قنوات، يجمع Gemini هذه القنوات
في قناة واحدة.