استكشاف الإمكانات الصوتية باستخدام Gemini API

يمكن أن يردّ Gemini على طلبات بشأن الصوت. على سبيل المثال، يمكن أن يفعل Gemini ما يلي:

  • وصف المحتوى الصوتي أو تلخيصه أو الإجابة عن أسئلة حوله
  • قدِّم نصًا للمحتوى الصوتي.
  • تقديم إجابات أو نص حول جزء معيّن من الملف الصوتي

يوضِّح هذا الدليل طرقًا مختلفة للتفاعل مع الملفات الصوتية والمحتوى الموسقي باستخدام Gemini API.

تنسيقات الصوت المتوافقة

تتيح منصة Gemini أنواع MIME التالية لتنسيقات الصوت:

  • ‫WAV - audio/wav
  • ‫MP3 - audio/mp3
  • AIFF - audio/aiff
  • ‫AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

التفاصيل الفنية حول الصوت

تفرض Gemini القواعد التالية على المحتوى الصوتي:

  • يمثّل Gemini كل ثانية من الصوت على شكل 25 رمزًا، على سبيل المثال، يتم تمثيل دقيقة واحدة من الصوت على شكل 1,500 رمز.
  • لا يمكن لخدمة Gemini استنتاج الردود إلا على المحتوى الصوتي باللغة الإنجليزية.
  • يمكن أن "يفهم" Gemini المكونات غير الكلامية، مثل أصوات الطيور أو صفارات الإنذار.
  • الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد هو 9.5 ساعة. لا تفرض خدمة Gemini قيودًا على عدد الملفات الصوتية في طلب واحد، ولكن لا يمكن أن تتجاوز المدّة الإجمالية لجميع الملفات الصوتية في طلب واحد 9.5 ساعة.
  • تُجري خدمة Gemini خفضًا في دقة ملفات الصوت إلى 16 كيلوبت في الثانية.
  • إذا كان مصدر الصوت يتضمّن قنوات متعددة، يجمع Gemini هذه القنوات لإنشاء قناة واحدة.

الخطوات التالية

يوضّح هذا الدليل كيفية تحميل ملفات صوتية باستخدام File API ثم إنشاء مخرجات متن من مدخلات صوتية. لمزيد من المعلومات، يُرجى الاطّلاع على المراجع التالية:

  • استراتيجيات طلب الملفات: تتيح واجهة برمجة التطبيقات Gemini API طلب البيانات النصية والمرئية والصوتية والفيديوية، والتي تُعرف أيضًا باسم طلبات البيانات المتعددة الوسائط.
  • تعليمات النظام: تتيح لك تعليمات النظام توجيه سلوك النموذج استنادًا إلى احتياجاتك وحالات الاستخدام المحدّدة.
  • إرشادات السلامة: في بعض الأحيان، تُنتج نماذج الذكاء الاصطناعي التوليدي نتائج غير متوقّعة، مثل النتائج غير الدقيقة أو المُتحيّزة أو المسيئة. إنّ المعالجة اللاحقة والتقييم البشري ضروريان لمحاولة الحد من خطر الضرر الناتج عن هذه النتائج.