Multimodal Live API

تتيح واجهة برمجة التطبيقات Multimodal Live API التفاعلات المتبادلة التي تتم بوقت استجابة منخفض وتستخدِم إدخال النصوص والصوت والفيديو، مع إخراج الصوت والنصوص. ويسهّل ذلك إجراء محادثات صوتية طبيعية تشبه المحادثات بين البشر، مع إمكانية مقاطعة النموذج في أي وقت. من خلال ميزة فهم الفيديو في النموذج، تتوسع وسائل التواصل، ما يتيح لك مشاركة بيانات الكاميرا أو تسجيلات الشاشة وطرح أسئلة بشأنها.

تتضمّن واجهة برمجة التطبيقات Multimodal Live API الإمكانات الرئيسية التالية:

  • تعدُّد الوسائط: يمكن للنموذج الرؤية والسمع والتحدث.
  • التفاعل في الوقت الفعلي بوقت استجابة منخفض: يمكن للنموذج تقديم ردود سريعة.
  • ذاكرة الجلسة: يحتفظ النموذج بذاكرة لجميع التفاعلات خلال جلسة واحدة، ويذكّر بالمعلومات التي سمعها أو رآها سابقًا.
  • إتاحة استدعاء الدوالّ وتنفيذ الرموز البرمجية و"البحث كأداة": يمكنك دمج النموذج مع الخدمات ومصادر البيانات الخارجية.

تم تصميم Multimodal Live API للتواصل بين الخوادم.

بالنسبة إلى التطبيقات على الويب والأجهزة الجوّالة، ننصحك باستخدام عملية الدمج من شركائنا في Daily.

دليل الدمج

الجلسات

تمثّل الجلسة اتصالاً واحدًا عبر WebSocket بين العميل وخادم Gemini.

بعد أن يبدأ العميل عملية اتصال جديدة، يمكن للجلسة تبادل الرسائل مع الخادم لإجراء ما يلي:

  • أرسِل نصًا أو محتوى صوتيًا أو فيديو إلى خادم Gemini.
  • تلقّي ردود صوتية أو نصية أو ردود على طلبات وظائف من خادم Gemini

يتم إرسال إعدادات الجلسة في أول رسالة بعد الاتصال. يتضمّن إعداد الجلسة النموذج ومَعلمات الإنشاء وتعليمات النظام والأدوات.

اطّلِع على مثال الإعداد التالي:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

لمزيد من المعلومات، يُرجى الاطّلاع على BidiGenerateContentSetup.

إرسال الرسائل

الرسائل هي سلاسل بتنسيق JSON يتم تبادلها عبر اتصال WebSocket.

لإرسال رسالة، يجب أن يرسل العميل رسالة مقبولة في سلسلة بتنسيق JSON باستخدام أحد اتصالات WebSocket المفتوحة.

انظر أيضًا