שימוש בכלים ובסוכנים עם Gemini API

הכלים והסוכנים מרחיבים את היכולות של מודלי Gemini, ומאפשרים להם לפעול בעולם, לגשת למידע בזמן אמת ולבצע משימות חישוביות מורכבות. מודלים יכולים להשתמש בכלים גם באינטראקציות רגילות של בקשה ותגובה וגם בסשנים של סטרימינג בזמן אמת באמצעות Live API.

  • כלים הם יכולות ספציפיות (כמו חיפוש Google או הפעלת קוד) שמודל יכול להשתמש בהן כדי לענות על שאילתות.
  • סוכנים הם מערכות שיכולות לתכנן, לבצע ולסכם משימות מרובות שלבים כדי להשיג מטרה של משתמש.

‫Gemini API מספק חבילה של כלים וסוכנים מובנים ומנוהלים במלואם, שעברו אופטימיזציה למודלים של Gemini. אפשר גם להגדיר כלים בהתאמה אישית באמצעות Function Calling.

כלים מובנים זמינים

כלי תיאור תרחישים לדוגמה
חיפוש Google התשובות מבוססות על אירועים עכשוויים ועובדות מהאינטרנט כדי לצמצם הזיות. – מענה לשאלות לגבי אירועים מהזמן האחרון
– אימות עובדות בעזרת מקורות מגוונים
מפות Google פיתוח ממשקי Assistant שמודעים למיקום ויכולים למצוא מקומות, לקבל מסלולים ולספק הקשר מקומי עשיר. – תכנון מסלולי נסיעה עם כמה עצירות
– חיפוש עסקים מקומיים על סמך קריטריונים של המשתמש
ביצוע קוד לאפשר למודל לכתוב ולהריץ קוד Python כדי לפתור בעיות מתמטיות או לעבד נתונים בצורה מדויקת. – פתרון משוואות מתמטיות מורכבות
– עיבוד וניתוח של נתוני טקסט בצורה מדויקת
הקשר של כתובת ה-URL הנחיית המודל לקרוא ולנתח תוכן מדפי אינטרנט או ממסמכים ספציפיים. – מענה לשאלות על סמך כתובות URL או מסמכים ספציפיים
– אחזור מידע מדפי אינטרנט שונים
שימוש במחשב (תצוגה מקדימה) אפשר לאפשר ל-Gemini לצפות במסך וליצור פעולות לאינטראקציה עם ממשקי משתמש של דפדפני אינטרנט (ביצוע בצד הלקוח). – אוטומציה של תהליכי עבודה שחוזרים על עצמם באינטרנט
– בדיקה של ממשקי משתמש של אפליקציות אינטרנט
חיפוש קבצים יצירת אינדקס וחיפוש במסמכים שלכם כדי להפעיל יצירה משולבת-אחזור (RAG). – חיפוש במדריכים טכניים
– מענה לשאלות על נתונים קנייניים

פרטים על העלויות שמשויכות לכלים ספציפיים מופיעים בדף התמחור.

נציגים זמינים

סוכן תיאור תרחישים לדוגמה
Deep Research מתכנן, מבצע ומסכם באופן אוטונומי משימות מחקר מרובות שלבים. – ניתוח שוק
– בדיקת נאותות
– סקירות ספרות

איך מתבצעת הרצת כלים

הכלים מאפשרים למודל לבקש פעולות במהלך שיחה. התהליך שונה בהתאם לסוג הכלי: מובנה (בניהול Google) או מותאם אישית (בניהול שלכם).

תהליך עבודה מובנה של כלי

בכלים מובנים כמו חיפוש Google או הפעלת קוד, התהליך כולו מתבצע בקריאה אחת ל-API:

  1. אתם שולחים הנחיה: "What is the square root of the latest stock price of GOOG?"
  2. Gemini מחליט שהוא צריך כלים ומפעיל אותם בשרתים של Google (לדוגמה, הוא מחפש את מחיר המניה ואז מריץ קוד Python כדי לחשב את השורש הריבועי).
  3. Gemini מחזיר את התשובה הסופית שמבוססת על תוצאות הכלי.

תהליך מותאם אישית של שימוש בכלי (בקשה להפעלת פונקציה)

בכלים מותאמים אישית ובשימוש במחשב, האפליקציה מטפלת בהרצה:

  1. אתם שולחים הנחיה עם הצהרות על פונקציות (כלים).
  2. Gemini עשוי להחזיר JSON מובנה כדי לקרוא לפונקציה ספציפית (לדוגמה, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. אתם מריצים את הפונקציה באפליקציה או בסביבה שלכם.
  4. אתם שולחים את תוצאות הפונקציה בחזרה ל-Gemini.
  5. Gemini משתמש בתוצאות כדי ליצור תשובה סופית או כדי להפעיל כלי אחר.

מידע נוסף מפורט במדריך להפעלת פונקציות.

פלט מובנה לעומת בקשה להפעלת פונקציה

‫Gemini מציע שתי שיטות ליצירת פלט מובנה. משתמשים בקריאה לפונקציה כשהמודל צריך לבצע שלב ביניים על ידי התחברות לכלים או למערכות נתונים משלכם. כדאי להשתמש בפלט מובנה כשאתם צריכים שהתשובה הסופית של המודל תתאים לסכימה ספציפית, למשל כדי להציג ממשק משתמש מותאם אישית.

פלט מובנה עם כלים

אתם יכולים לשלב פלט מובנה עם כלים מובנים כדי לוודא שהתשובות של המודל שמבוססות על נתונים חיצוניים או על חישובים עדיין עומדות בדרישות של סכמה מחמירה.

דוגמאות קוד מופיעות במאמר בנושא פלט מובנה עם כלים.

יצירת סוכנים

סוכנים הם מערכות שמשתמשות במודלים ובכלים כדי להשלים משימות מרובות שלבים. ‫Gemini מספק את יכולות ההסקה (ה'מוח') ואת הכלים החיוניים (ה'ידיים'), אבל לעיתים קרובות צריך מסגרת תזמור כדי לנהל את הזיכרון של הסוכן, את לולאות התכנון ואת שרשור הכלים המורכב.

כדי למקסם את המהימנות בתהליכי עבודה מרובי-שלבים, כדאי ליצור הוראות ששולטות באופן מפורש בדרך שבה המודל מסיק מסקנות ומתכנן. למרות ש-Gemini מספק נימוקים כלליים חזקים, סוכנים מורכבים נהנים מהנחיות שמכתיבות התנהגויות ספציפיות כמו התמדה כשנתקלים בבעיות, הערכת סיכונים ותכנון פרואקטיבי.

במאמר תהליכי עבודה מבוססי-סוכן מפורטות אסטרטגיות לעיצוב ההנחיות האלה. לדוגמה, הוראה למערכת ששיפרה את הביצועים בכמה מדדים של סוכנים בכ-5%:

מסגרות של סוכנים

‫Gemini משולב עם מסגרות סוכנים מובילות בקוד פתוח, כמו:

  • LangChain / LangGraph: בניית זרימות מורכבות של אפליקציות עם שמירת מצב ומערכות מרובות סוכנים באמצעות מבני גרפים.
  • LlamaIndex: חיבור סוכני Gemini לנתונים פרטיים כדי לשפר את תהליכי העבודה באמצעות RAG.
  • CrewAI: תזמור של סוכני AI אוטונומיים שמשתפים פעולה ומגלמים תפקידים.
  • Vercel AI SDK: פיתוח ממשקי משתמש וסוכנים מבוססי-AI ב-JavaScript/TypeScript.
  • Google ADK: מסגרת קוד פתוח ליצירה ולניהול של סוכני AI שפועלים באופן הדדי.