اشتراک گذاری

۱۲ دسامبر ۲۰۲۵

آوا: ساخت گردش‌های کاری عامل‌محور با Gemini 2.5 Flash و Live API

جو آلیکاتا

هم‌بنیانگذار و مدیر ارشد فناوری آوا

ویشال دارمادیکاری

مهندس راهکارهای توسعه‌دهنده

قهرمان نمایشی آوا

آوا یک «سیستم عامل خانوادگی مبتنی بر هوش مصنوعی» است که برای مدیریت تدارکات زندگی خانوادگی با پیش‌بینی نیازها و خودکارسازی وظایف طراحی شده است.

اطلاعاتی که والدین مدیریت می‌کنند به ندرت ساختاریافته است؛ این اطلاعات از طریق ایمیل‌های نامرتبط مدرسه، اسکرین‌شات‌های بروشورها، پیوست‌های PDF، رشته‌های طولانی واتس‌اپ و یادداشت‌های صوتی به دستشان می‌رسد. آوا باید زمینه را درک کند و به طور یکپارچه با سرویس‌های خارجی تعامل داشته باشد.

برای مدیریت ورودی‌های نامرتب و بدون ساختار دنیای واقعی، تیم Ava یک معماری لایه‌ای را با استفاده از مدل‌های Gemini 2.5 Flash برای مراحل مختلف خط لوله عامل‌محور خود و Live API برای ارائه یک رابط محاوره‌ای پیاده‌سازی کرد.

ویترین آوا

بهینه‌سازی عملکرد و بهره‌وری

درخواست‌های ورودی ابتدا با یک روتر عامل سبک وزن مواجه می‌شوند تا تجربه کاربری را پاسخگو جلوه دهند. این روتر به عنوان سیستم اولویت‌بندی عمل می‌کند، اولویت ورودی را طبقه‌بندی می‌کند، جایگاه‌های کلیدی (چه کسی، چه زمانی، کجا) را استخراج می‌کند و تصمیم می‌گیرد که کدام ابزار تخصصی یا مدل بعدی مورد نیاز است.

به گفته جو آلیکاتا، یکی از بنیانگذاران و مدیر ارشد فناوری آوا، «Gemini 2.5 Flash-Lite برای بررسی‌های فوق‌العاده سبک می‌درخشد» و تشخیص قصد و خلاصه‌سازی فرم کوتاه را در حین ارائه پاسخ‌های زیر ثانیه انجام می‌دهد.

مدیریت برنامه‌ریزی و اجرای پیچیده

پس از مشخص شدن هدف، وظایف اغلب به استدلال عمیق‌تری نیاز دارند. به عنوان مثال، تجزیه و تحلیل تقویم مدرسه، عادی‌سازی تاریخ‌های متناقض و پیشنهاد رویداد صحیح نیاز به درک دقیقی دارد. Gemini 2.5 Flash به Ava این امکان را می‌دهد که با برآورده کردن الزامات فنی دقیق، به عنوان یک «مدیر ارشد عملیاتی» توانمند عمل کند:

  • درک چندوجهی : پردازش متن، تصاویر و صدا در یک مرحله
  • افزایش دقت در شرایط ابهام : تفسیر صحیح ارتباطات متناقض مدرسه
  • فراخوانی تابع قابل اعتماد : اطمینان از اینکه اقداماتی مانند فراخوانی Gmail و API تقویم، از داده‌های ساختاریافته و قابل اعتماد استفاده می‌کنند.


خانواده‌ها می‌توانند وظایف خانه خود را کاملاً از طریق تعاملات صوتی که توسط Live API فعال می‌شود، مدیریت کنند. آلیکاتا خاطرنشان کرد که آنها «نیاز شدیدی به صدای بومی» داشتند، بنابراین آوا مانند ابزاری طبیعی برای استفاده به نظر می‌رسد.

یک رویکرد بالغ برای ساخت سیستم‌های عامل‌گرا

این تیم در طول توسعه، به‌طور گسترده از Google AI Studio برای تکرار سریع دستورالعمل‌ها و طرح‌های ابزار و همچنین مدل‌های کاندید تست A/B استفاده کرد و حلقه ایده تا تست را از چند روز به چند ساعت کوتاه کرد.

نتایج، اثربخشی رویکرد چند مدلی آنها را نشان داد. آنها دقت بالاتری در اولین ورود اطلاعات نویزی مانند رشته‌های ایمیل و عکس‌های آگهی‌ها مشاهده کردند. در طول اسپرینت آلفا، ۸۰٪ از کاربران Ava، کاربران فعال روزانه بودند و هزاران رویداد اولویت‌بندی‌شده تأیید و به تقویم‌ها اضافه شدند.

با استفاده از مدل‌های بسیار کارآمد برای خواندن سریع و اختصاص مدل‌های منابع-محورتر برای تحلیل‌های پیچیده، سیستم‌های عامل می‌توانند با سرعت زندگی واقعی کار کنند.

برای بررسی اینکه چگونه مدل‌های Gemini و Live API می‌توانند گردش‌های کاری عامل‌محور را ساده‌سازی کنند، مستندات API ما را بررسی کنید.

قطره باران

پلتفرم نظارت هوش مصنوعی Raindrop از Gemini 2.5 Flash برای تشخیص مشکلات در لحظه، کاهش چشمگیر زمان جستجو و کاهش بیش از ۹۰ درصدی هزینه‌ها استفاده می‌کند.