استكشاف الإمكانات الصوتية باستخدام Gemini API

يمكن لـ Gemini الردّ على الطلبات المتعلقة بالصوت. على سبيل المثال، بإمكان Gemini تنفيذ ما يلي:

  • قدِّم وصفًا للمحتوى الصوتي أو لخصه أو أجِب عن الأسئلة المتعلقة به.
  • قدِّم نصًا صوتيًا.
  • تقديم إجابات أو تحويل الصوت إلى نص حول مقطع معيّن من الصوت

يعرض هذا الدليل طرقًا مختلفة لتنفيذ ما يلي:

  • تمرير الصوت إلى نموذج Gemini
  • إرسال طلب إلى نموذج Gemini بشأن الصوت

التنسيقات الصوتية المتوافقة

يتيح Gemini استخدام أنواع MIME التالية لتنسيق الصوت:

  • WAV - صوت/wav
  • MP3 - صوت/mp3
  • AIFF - صوت/الذكاء الاصطناعي (AI)
  • الترميز المتقدّم للصوت (AAC)
  • OGG Vorbis - صوت/ogg
  • FLAC - صوت/فلك

التفاصيل الفنية حول الصوت

يفرض Gemini القواعد التالية على المحتوى الصوتي:

  • يمثِّل Gemini كل ثانية من الصوت على شكل 25 رمزًا مميزًا. على سبيل المثال، تُمثل دقيقة واحدة من الصوت 1,500 رمز مميز.
  • يستطيع Gemini استنتاج الردود على الكلام باللغة الإنجليزية فقط.
  • بإمكان Gemini "فهم" المكوّنات غير الكلامية، مثل أغاني العصافير أو صفارات الإنذار.
  • يبلغ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد 9.5 ساعات. لا يحدّ Gemini من عدد الملفات الصوتية في طلب واحد، ولكن لا يمكن أن يتجاوز إجمالي مدة كل الملفات الصوتية في طلب واحد 9.5 ساعات.
  • يستخدم Gemini عيّنات من الملفات الصوتية بدرجة دقة بيانات تبلغ 16 كيلوبت في الثانية.
  • إذا كان مصدر الصوت يتضمّن عدة قنوات، يدمج Gemini هذه القنوات في قناة واحدة.