مشاركة

‫12 ديسمبر 2025

‫Ava: إنشاء مهام سير عمل وكيل باستخدام Gemini 2.5 Flash وLive API

جو أليكاتا

المؤسس المشارك ورئيس قسم التكنولوجيا في Ava

فيشال دارماديكاري

مهندس حلول للمطوّرين

Ava showcase hero

Ava هو "نظام تشغيل عائلي مستند إلى الذكاء الاصطناعي" مصمّم لإدارة الخدمات اللوجستية للحياة العائلية من خلال توقّع الاحتياجات وأتمتة المهام.

المعلومات التي يديرها الأهل نادرًا ما تكون منظَّمة، بل تصلهم عبر رسائل إلكترونية غير متسقة من المدرسة، ولقطات شاشة من النشرات، ومرفقات بتنسيق PDF، وسلاسل محادثات طويلة على WhatsApp، وملاحظات صوتية. يجب أن تفهم Ava السياق وتتفاعل بسلاسة مع الخدمات الخارجية.

للتعامل مع المدخلات غير المنظَّمة والمعقّدة من العالم الحقيقي، نفّذ فريق Ava بنية متعددة المستويات باستخدام نماذج Gemini 2.5 Flash لمراحل مختلفة من مسار العمل المستند إلى الوكلاء وLive API لتوفير واجهة محادثة.

مختارات Ava

تحسين الأداء والكفاءة

تتلقّى الطلبات الواردة أولاً موجّه وكيل خفيف الوزن لجعل تجربة المستخدم تبدو متجاوبة. يعمل هذا الموجّه كنظام فرز، حيث يصنّف أولوية الإدخال ويستخرج الخانات الرئيسية (من، متى، أين) ويحدّد الأداة المتخصّصة أو النموذج اللاحق المطلوب.

يقول "جو أليكاتا"، الشريك المؤسس والمدير التنفيذي للتكنولوجيا في Ava: "يتميّز Gemini 2.5 Flash-Lite بإجراء عمليات التحقّق فائقة السرعة"، إذ يتعامل مع رصد النية وتلخيص المحتوى القصير مع تقديم ردود في أقل من ثانية.

التعامل مع التخطيط والتنفيذ المعقّدين

بعد تحديد النية، غالبًا ما تتطلّب المهام تفكيرًا أعمق. على سبيل المثال، يتطلّب تحليل تقويم مدرسي وتوحيد التواريخ غير المتسقة واقتراح الحدث الصحيح فهمًا دقيقًا. يتيح Gemini 2.5 Flash لتطبيق Ava أن يكون "مديرًا تنفيذيًا للعمليات" فعّالاً في المنزل من خلال استيفاء المتطلبات الفنية الصارمة التالية:

  • الفهم المتعدّد الوسائط: معالجة النصوص والصور والمقاطع الصوتية في عملية واحدة
  • زيادة الدقة في حال عدم الوضوح: تفسير الرسائل غير المتناسقة من المدرسة بشكل صحيح
  • تنفيذ الدوال بشكل موثوق: التأكّد من أنّ الإجراءات، مثل طلب بيانات من Gmail وCalendar API، تستخدم بيانات منظَّمة وموثوقة


يمكن للعائلات إدارة مهامها المنزلية بالكامل من خلال التفاعلات الصوتية التي تتيحها Live API. أشار "أليكاتا" إلى أنّهم لديهم "شرط أساسي بشأن الصوت الأصلي"، لذا تبدو Ava أداة طبيعية يمكن الاستفادة منها.

نهج مدروس لتطوير الأنظمة المستندة إلى الذكاء الاصطناعي الوكيل

استخدم الفريق Google AI Studio على نطاق واسع أثناء عملية التطوير لتكرار الطلبات ومخططات الأدوات بسرعة، بالإضافة إلى اختبار نماذج المرشحين باستخدام اختبار أ/ب، ما أدّى إلى تقصير مدة دورة الفكرة إلى الاختبار من أيام إلى ساعات.

أظهرت النتائج فعالية نهج النماذج المتعددة الذي اتّبعته الشركة. وقد لاحظوا دقة أعلى في المحاولة الأولى عند استخدام مدخلات مشوّشة، مثل سلاسل رسائل البريد الإلكتروني وصور النشرات الإعلانية. خلال مرحلة الإصدار الأوّلي، كان% 80 من مستخدمي Ava نشطين يوميًا، وتمت الموافقة على آلاف الأحداث التي تمّت معالجتها وإضافتها إلى التقاويم.

من خلال استخدام نماذج عالية الكفاءة للقراءة السريعة وتخصيص نماذج تتطلّب موارد أكثر لإجراء تحليلات معقّدة، يمكن أن تعمل الأنظمة المستندة إلى الوكلاء بالسرعة نفسها التي تسير بها الحياة الواقعية.

للتعرّف على كيفية تبسيط نماذج Gemini وLive API لسير العمل المستند إلى الوكلاء، يمكنك الاطّلاع على مستندات API.