۱۲ دسامبر ۲۰۲۵
آوا: ساخت گردشهای کاری عاملمحور با Gemini 2.5 Flash و Live API

آوا یک «سیستم عامل خانوادگی مبتنی بر هوش مصنوعی» است که برای مدیریت تدارکات زندگی خانوادگی با پیشبینی نیازها و خودکارسازی وظایف طراحی شده است.
اطلاعاتی که والدین مدیریت میکنند به ندرت ساختاریافته است؛ این اطلاعات از طریق ایمیلهای نامرتبط مدرسه، اسکرینشاتهای بروشورها، پیوستهای PDF، رشتههای طولانی واتساپ و یادداشتهای صوتی به دستشان میرسد. آوا باید زمینه را درک کند و به طور یکپارچه با سرویسهای خارجی تعامل داشته باشد.
برای مدیریت ورودیهای نامرتب و بدون ساختار دنیای واقعی، تیم Ava یک معماری لایهای را با استفاده از مدلهای Gemini 2.5 Flash برای مراحل مختلف خط لوله عاملمحور خود و Live API برای ارائه یک رابط محاورهای پیادهسازی کرد.

بهینهسازی عملکرد و بهرهوری
درخواستهای ورودی ابتدا با یک روتر عامل سبک وزن مواجه میشوند تا تجربه کاربری را پاسخگو جلوه دهند. این روتر به عنوان سیستم اولویتبندی عمل میکند، اولویت ورودی را طبقهبندی میکند، جایگاههای کلیدی (چه کسی، چه زمانی، کجا) را استخراج میکند و تصمیم میگیرد که کدام ابزار تخصصی یا مدل بعدی مورد نیاز است.
به گفته جو آلیکاتا، یکی از بنیانگذاران و مدیر ارشد فناوری آوا، «Gemini 2.5 Flash-Lite برای بررسیهای فوقالعاده سبک میدرخشد» و تشخیص قصد و خلاصهسازی فرم کوتاه را در حین ارائه پاسخهای زیر ثانیه انجام میدهد.
مدیریت برنامهریزی و اجرای پیچیده
پس از مشخص شدن هدف، وظایف اغلب به استدلال عمیقتری نیاز دارند. به عنوان مثال، تجزیه و تحلیل تقویم مدرسه، عادیسازی تاریخهای متناقض و پیشنهاد رویداد صحیح نیاز به درک دقیقی دارد. Gemini 2.5 Flash به Ava این امکان را میدهد که با برآورده کردن الزامات فنی دقیق، به عنوان یک «مدیر ارشد عملیاتی» توانمند عمل کند:
- درک چندوجهی : پردازش متن، تصاویر و صدا در یک مرحله
- افزایش دقت در شرایط ابهام : تفسیر صحیح ارتباطات متناقض مدرسه
- فراخوانی تابع قابل اعتماد : اطمینان از اینکه اقداماتی مانند فراخوانی Gmail و API تقویم، از دادههای ساختاریافته و قابل اعتماد استفاده میکنند.
خانوادهها میتوانند وظایف خانه خود را کاملاً از طریق تعاملات صوتی که توسط Live API فعال میشود، مدیریت کنند. آلیکاتا خاطرنشان کرد که آنها «نیاز شدیدی به صدای بومی» داشتند، بنابراین آوا مانند ابزاری طبیعی برای استفاده به نظر میرسد.
یک رویکرد بالغ برای ساخت سیستمهای عاملگرا
این تیم در طول توسعه، بهطور گسترده از Google AI Studio برای تکرار سریع دستورالعملها و طرحهای ابزار و همچنین مدلهای کاندید تست A/B استفاده کرد و حلقه ایده تا تست را از چند روز به چند ساعت کوتاه کرد.
نتایج، اثربخشی رویکرد چند مدلی آنها را نشان داد. آنها دقت بالاتری در اولین ورود اطلاعات نویزی مانند رشتههای ایمیل و عکسهای آگهیها مشاهده کردند. در طول اسپرینت آلفا، ۸۰٪ از کاربران Ava، کاربران فعال روزانه بودند و هزاران رویداد اولویتبندیشده تأیید و به تقویمها اضافه شدند.
با استفاده از مدلهای بسیار کارآمد برای خواندن سریع و اختصاص مدلهای منابع-محورتر برای تحلیلهای پیچیده، سیستمهای عامل میتوانند با سرعت زندگی واقعی کار کنند.
برای بررسی اینکه چگونه مدلهای Gemini و Live API میتوانند گردشهای کاری عاملمحور را سادهسازی کنند، مستندات API ما را بررسی کنید.
قطره باران
پلتفرم نظارت هوش مصنوعی Raindrop از Gemini 2.5 Flash برای تشخیص مشکلات در لحظه، کاهش چشمگیر زمان جستجو و کاهش بیش از ۹۰ درصدی هزینهها استفاده میکند.