12 בדצמבר 2025
Ava: יצירת תהליכי עבודה אקטיביים באמצעות Gemini 2.5 Flash ו-Live API
Ava היא 'מערכת הפעלה משפחתית מבוססת-AI' שנועדה לנהל את הלוגיסטיקה של חיי המשפחה על ידי חיזוי צרכים ואוטומציה של משימות.
המידע שהורים מנהלים הוא בדרך כלל לא מובנה. הוא מגיע באימיילים לא עקביים מבית הספר, בצילומי מסך של פליירים, בקבצים מצורפים בפורמט PDF, בשרשורי וואטסאפ ארוכים ובהודעות קוליות. היא צריכה להבין את ההקשר ולקיים אינטראקציה חלקה עם שירותים חיצוניים.
כדי להתמודד עם קלט לא מסודר ולא מובנה מהעולם האמיתי, צוות Ava הטמיע ארכיטקטורה מדורגת באמצעות מודלים של Gemini 2.5 Flash בשלבים שונים של צינור העיבוד של הסוכן, וגם את Live API כדי לספק ממשק שיחה.
אופטימיזציה של הביצועים והיעילות
בקשות נכנסות מועברות קודם לנתב קל משקל של נציגים כדי שחוויית המשתמש תהיה רספונסיבית. הנתב הזה פועל כמערכת למיון ראשוני, מסווג את העדיפות של הקלט, מחלץ משבצות מפתח (מי, מתי, איפה) ומחליט איזה כלי ייעודי או מודל עוקב נדרש.
לדברי ג'ו אליקטה (Joe Alicata), מייסד שותף וסמנכ"ל טכנולוגיות ב-Ava, Gemini 2.5 Flash-Lite מצטיין בבדיקות קלות במיוחד, בטיפול בזיהוי כוונות ובסיכום של טקסטים קצרים, ובהפקת תשובות תוך פחות משנייה.
טיפול בתכנון והרצה מורכבים
אחרי שהכוונה ברורה, לרוב נדרשת חשיבה רציונלית מעמיקה יותר כדי לבצע את המשימות. לדוגמה, כדי לנתח יומן בית ספרי, לנרמל תאריכים לא עקביים ולהציע את האירוע הנכון, נדרשת הבנה מדויקת. Gemini 2.5 Flash מאפשר ל-Ava לשמש כ"מנהלת תפעול ביתית" יעילה, כי הוא עומד בדרישות טכניות מחמירות:
- הבנה מולטי-מודאלית: עיבוד של טקסט, תמונות ואודיו במעבר אחד
- שיפור הדיוק במקרים של עמימות: פירוש נכון של תקשורת לא עקבית מבית הספר
- קריאה מהימנה לפונקציות: כדי לוודא שפעולות כמו קריאה ל-Gmail ול-Calendar API משתמשות בנתונים מובנים ומהימנים
לכל המשפחה יכולים לנהל את המשימות הביתיות שלהן באופן מלא באמצעות אינטראקציות קוליות שמופעלות על ידי Live API. אליקטה ציין שהייתה להם "דרישה מחמירה לגבי אודיו בשפה המקומית", ולכן Ava נראתה ככלי טבעי לשימוש.
גישה בוגרת לבניית מערכות סוכניות
הצוות השתמש ב-Google AI Studio באופן נרחב במהלך הפיתוח כדי לבצע איטרציה מהירה על הנחיות וסכימות של כלים, וגם כדי לבצע בדיקות A/B של מודלים פוטנציאליים. כך הצליח הצוות לקצר את מחזור הרעיונות והבדיקות מימים לשעות.
התוצאות הראו את היעילות של הגישה הרב-מודלית שלהם. הם הבחינו ברמת דיוק גבוהה יותר במעבר הראשון על קלט עם רעשי רקע, כמו שרשורי אימייל ותמונות של פליירים. במהלך ספרינט האלפא, 80% מהמשתמשים ב-Ava היו משתמשים פעילים ביום, ואלפי אירועים שסווגו אושרו והתווספו ליומנים.
מערכות מבוססות-סוכנים יכולות לפעול במהירות של החיים האמיתיים, כי הן משתמשות במודלים יעילים מאוד לקריאה מהירה, ושומרות מודלים שדורשים יותר משאבים לניתוח מורכב.
כדי להבין איך מודלים של Gemini ו-Live API יכולים לייעל תהליכי עבודה של סוכנים, כדאי לעיין במאמרי העזרה של ה-API.