أصبحت Interactions API متاحة الآن للجميع. ننصحك باستخدام واجهة برمجة التطبيقات هذه للوصول إلى جميع أحدث الميزات والنماذج.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

نظرة عامة على Gemini Live API

تتيح Live API التفاعل مع Gemini في الوقت الفعلي باستخدام الصوت والصورة وبزمن انتقال منخفض، إذ تعالج هذه الواجهة تدفقات مستمرة من الصوت والصور والنصوص لتقديم ردود فورية شبيهة بالردود البشرية، ما يتيح للمستخدمين الاستفادة من تجربة محادثة طبيعية.

نظرة عامة على Live API

تجربة Live API في Google AI Studio استنساخ تطبيقات نموذجية من GitHub استخدام مهارات وكيل الترميز

حالات الاستخدام

يمكن استخدام Live API لإنشاء وكلاء صوتيين في الوقت الفعلي لمجموعة متنوعة من المجالات، بما في ذلك:

التجارة الإلكترونية والبيع بالتجزئة: مساعدو التسوّق الذين يقدّمون اقتراحات مخصّصة ووكلاء الدعم الذين يحلّون مشاكل العملاء
الألعاب: شخصيات تفاعلية لا يتحكّم بها اللاعب (NPC) ومساعدون داخل اللعبة وترجمة في الوقت الفعلي للمحتوى داخل اللعبة
واجهات الجيل التالي: تجارب مزوّدة بإمكانية استخدام الصوت والفيديو في الروبوتات والنظارات الذكية والمركبات
الرعاية الصحية: مرافقون صحيون لتقديم الدعم للمرضى وتثقيفهم
الخدمات المالية: مستشارون يعملون بالذكاء الاصطناعي لإدارة الثروات وتقديم إرشادات بشأن الاستثمار
التعليم: مرشدون ومرافقون للمتعلّمين يستندون إلى الذكاء الاصطناعي ويقدّمون تعليمات وملاحظات مخصّصة.
الترجمة والتعريب: ترجمة المحادثات الشفهية في الوقت الفعلي وبزمن استجابة منخفض، ما يتيح التواصل بسلاسة بلغات متعددة

الميزات الرئيسية

تقدّم Live API مجموعة شاملة من الميزات لإنشاء وكلاء صوتيين فعّالين:

دعم اللغات المتعددة: تحدّث بـ 70 لغة مدعومة.
المقاطعة: يمكن للمستخدمين مقاطعة النموذج في أي وقت لإجراء تفاعلات سريعة الاستجابة.
استخدام الأدوات: يدمج هذا الخيار أدوات مثل ميزة "طلب تنفيذ وظيفة" و"بحث Google" لإجراء تفاعلات ديناميكية.
تحويل الصوت إلى نص: توفّر هذه الميزة نصوصًا لبيانات أدخلها المستخدم ومخرجات النموذج.
الاستجابة الصوتية الاستباقية: تتيح لك التحكّم في وقت استجابة النموذج والسياقات التي يستجيب فيها.
حوار تفاعلي تعاطفي: يعدّل أسلوب الرد ونبرته ليناسبا تعبيرات المستخدم.
الترجمة المباشرة: ترجمة الصوت في الوقت الفعلي بأكثر من 70 لغة

المواصفات الفنية

يوضّح الجدول التالي المواصفات الفنية لواجهة Live API:

الفئة	التفاصيل
طُرق الإدخال	الصوت (صوت PCM خام بمعدل 16 بت، و16 كيلوهرتز، وترتيب وحدات البايت الأصغر أولاً)، والصور (JPEG <= 1 لقطة في الثانية)، والنص
طُرق الإخراج	الصوت (صوت PCM خام بمعدل 16 بت، و24 كيلوهرتز، وترتيب وحدات البايت الأصغر أولاً)
البروتوكول	اتصال WebSocket ذو الحالة (WSS)

اختيار طريقة التنفيذ

عند الدمج مع Live API، عليك اختيار أحد أساليب التنفيذ التالية:

من الخادم إلى الخادم: يتصل الخلفية بواجهة Live API باستخدام WebSockets. وعادةً، يرسل العميل بيانات البث (الصوت والفيديو والنص) إلى الخادم، الذي يعيد توجيهها إلى Live API.
من العميل إلى الخادم: يتصل الرمز البرمجي للواجهة الأمامية مباشرةً بواجهة برمجة التطبيقات Live API باستخدام WebSockets لبث البيانات، مع تجاوز الخلفية.

للحد من المخاطر الأمنية.

البدء

اختَر الدليل الذي يتوافق مع بيئة التطوير:

التتبُّع من خادم إلى خادم

برنامج تعليمي حول حزمة تطوير البرامج (SDK) الخاصة بالذكاء الاصطناعي التوليدي

يمكنك الربط بواجهة Gemini Live API باستخدام حزمة GenAI SDK لإنشاء تطبيق متعدّد الوسائط في الوقت الفعلي مع خادم خلفي بلغة Python.

من العميل إلى الخادم

برنامج تعليمي حول WebSocket

يمكنك الربط بواجهة Gemini Live API باستخدام WebSockets لإنشاء تطبيق متعدّد الوسائط في الوقت الفعلي مع واجهة أمامية JavaScript ورموز مميّزة مؤقتة.

مجموعة أدوات تطوير الوكيل

برنامج تعليمي حول "حزمة تطوير التطبيقات لنظام Android"

إنشاء وكيل واستخدام ميزة "البث المباشر" في Agent Development Kit (ADK) لتفعيل التواصل الصوتي والمرئي

عمليات الدمج مع الشركاء

لتسهيل عملية تطوير تطبيقات الصوت والفيديو في الوقت الفعلي، يمكنك استخدام عملية دمج تابعة لجهة خارجية تتوافق مع واجهة برمجة التطبيقات Gemini Live عبر WebRTC أو WebSockets.

LiveKit

استخدام Gemini Live API مع LiveKit Agents

Pipecat by Daily

إنشاء روبوت دردشة بالذكاء الاصطناعي في الوقت الفعلي باستخدام Gemini Live وPipecat

‫Fishjam من Software Mansion

يمكنك إنشاء تطبيقات لبث الفيديو المباشر والصوت باستخدام Fishjam.

وكلاء Vision حسب البث

يمكنك إنشاء تطبيقات ذكاء اصطناعي للصوت والفيديو في الوقت الفعلي باستخدام Vision Agents.

Voximplant

ربط المكالمات الواردة والصادرة بواجهة برمجة التطبيقات Live API باستخدام Voximplant

Agora

يمكنك إنشاء تطبيقات ذكاء اصطناعي حوارية في الوقت الفعلي باستخدام Agora.

Firebase AI SDK

ابدأ استخدام Gemini Live API من خلال Firebase AI Logic.