استكشاف الإمكانات الصوتية باستخدام Gemini API

يمكن لـ Gemini الردّ على الطلبات المتعلقة بالصوت. على سبيل المثال، بإمكان Gemini تنفيذ ما يلي:

  • قدِّم وصفًا للمحتوى الصوتي أو لخصه أو أجب عن أسئلة حوله.
  • قدِّم نصًا صوتيًا.
  • تقديم إجابات أو تحويل الصوت إلى نص حول مقطع معيّن من الصوت

يعرض هذا الدليل طرقًا مختلفة لتنفيذ ما يلي:

  • تمرير الصوت إلى نموذج Gemini
  • إرسال طلب إلى نموذج Gemini بشأن الصوت

التنسيقات الصوتية المتوافقة

يتيح Gemini استخدام أنواع MIME التالية بتنسيقات الصوت:

  • WAV - صوت/wav
  • MP3 - صوت/mp3
  • AIFF - صوت/الذكاء الاصطناعي (AI)
  • الترميز المتقدّم للصوت (AAC)
  • OGG Vorbis - صوت/ogg
  • FLAC - صوت/فلك

التفاصيل الفنية حول الصوت

يفرض Gemini القواعد التالية على المحتوى الصوتي:

  • يمثِّل Gemini كل ثانية من الصوت على شكل 25 رمزًا مميزًا على سبيل المثال، تُمثل دقيقة واحدة من الصوت على شكل 1,500 رمز مميز.
  • يستطيع Gemini استنتاج الردود على الكلام باللغة الإنجليزية فقط.
  • بإمكان Gemini "فهم" المكونات بخلاف الكلام، مثل أغاني الطيور أو صفارات الإنذار
  • يبلغ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد 9.5 ساعات. لا يضع Gemini حدًا لعدد الملفات الصوتية في طلب واحد. وَلَكِنْ يجب ألّا يتجاوز إجمالي الطول المجمّع لكل الملفات الصوتية في طلب واحد 9.5 ساعات.
  • يستخدم Gemini عيّنات من الملفات الصوتية بدرجة دقة بيانات تبلغ 16 كيلوبت في الثانية.
  • إذا كان مصدر الصوت يتضمّن عدة قنوات، يجمع Gemini هذه القنوات في قناة واحدة.