12 ديسمبر 2025
Ava: إنشاء مهام سير عمل وكيل باستخدام Gemini 2.5 Flash وLive API
Ava هو "نظام تشغيل عائلي مستند إلى الذكاء الاصطناعي" مصمّم لإدارة الخدمات اللوجستية للحياة العائلية من خلال توقّع الاحتياجات وأتمتة المهام.
المعلومات التي يديرها الأهل نادرًا ما تكون منظَّمة، بل تصلهم عبر رسائل إلكترونية غير متسقة من المدرسة، ولقطات شاشة من النشرات، ومرفقات بتنسيق PDF، وسلاسل محادثات طويلة على WhatsApp، وملاحظات صوتية. يجب أن تفهم Ava السياق وتتفاعل بسلاسة مع الخدمات الخارجية.
للتعامل مع المدخلات غير المنظَّمة في العالم الحقيقي، نفّذ فريق Ava بنية متعددة المستويات باستخدام نماذج Gemini 2.5 Flash في مراحل مختلفة من مسار العمل المستند إلى الوكلاء وLive API لتوفير واجهة محادثة.
تحسين الأداء والكفاءة
تتلقّى الطلبات الواردة أولاً موجّه وكيل خفيف الوزن لجعل تجربة المستخدم تبدو متجاوبة. يعمل هذا الموجّه كنظام فرز، حيث يصنّف أولوية الإدخال ويستخرج الخانات الرئيسية (من، متى، أين) ويحدّد الأداة المتخصصة أو النموذج اللاحق المطلوب.
يقول "جو أليكاتا"، المؤسس المشارك والمدير التنفيذي للتكنولوجيا في Ava: "يتفوّق Gemini 2.5 Flash-Lite في عمليات التحقّق فائقة الخفة"، إذ يتعامل مع رصد النية وتلخيص المحتوى القصير مع تقديم ردود في أقل من ثانية.
التعامل مع التخطيط والتنفيذ المعقّدين
بعد تحديد النية، غالبًا ما تتطلّب المهام تفكيرًا أعمق. على سبيل المثال، يتطلّب تحليل تقويم المدرسة وتوحيد التواريخ غير المتسقة واقتراح الحدث الصحيح فهمًا دقيقًا. يتيح نموذج Gemini 2.5 Flash لتطبيق Ava أن يكون "مديرًا تنفيذيًا للعمليات" فعّالاً في المنزل من خلال استيفاء المتطلبات الفنية الصارمة التالية:
- الفهم المتعدّد الوسائط: معالجة النصوص والصور والمقاطع الصوتية في عملية واحدة
- زيادة الدقة في حال عدم الوضوح: تفسير الرسائل غير المتناسقة التي ترسلها المدرسة بشكلٍ صحيح
- تنفيذ الوظائف بشكل موثوق: التأكّد من أنّ الإجراءات، مثل طلب Gmail وCalendar API، تستخدم بيانات منظَّمة وموثوقة
يمكن للعائلات إدارة مهام منزلهم بالكامل من خلال التفاعلات الصوتية التي تتيحها Live API. أشار "أليكاتا" إلى أنّهم لديهم "شرط أساسي بشأن الصوت الأصلي"، لذا تبدو Ava أداة طبيعية يمكن الاستفادة منها.
نهج مدروس لتطوير الأنظمة المستندة إلى الذكاء الاصطناعي الوكيل
استخدم الفريق Google AI Studio على نطاق واسع أثناء عملية التطوير لتكرار الطلبات ومخططات الأدوات بسرعة، بالإضافة إلى اختبار نماذج المرشّحين من خلال اختبار أ/ب، ما أدّى إلى تقصير مدة دورة الفكرة إلى الاختبار من أيام إلى ساعات.
أظهرت النتائج فعالية نهج النماذج المتعددة الذي اتّبعته الشركة. وقد لاحظوا دقة أعلى في المرور الأول عند استخدام مدخلات مشوّشة، مثل سلاسل رسائل البريد الإلكتروني وصور النشرات الإعلانية. خلال مرحلة الإصدار الأوّلي، كان% 80 من مستخدمي Ava نشطين يوميًا، وتمت الموافقة على آلاف الأحداث التي تمّت معالجتها وإضافتها إلى التقاويم.
من خلال استخدام نماذج عالية الكفاءة للقراءة السريعة وتخصيص نماذج أكثر استهلاكًا للموارد لإجراء تحليلات معقّدة، يمكن للأنظمة المستندة إلى الوكلاء العمل بسرعة الحياة الواقعية.
للتعرّف على كيفية تبسيط نماذج Gemini وLive API لسير العمل المستند إلى الوكلاء، يمكنك الاطّلاع على مستندات API.