שימוש בכלים עם Gemini API

הכלים מרחיבים את היכולות של מודלים של Gemini, ומאפשרים להם לבצע פעולות בעולם, לגשת למידע בזמן אמת ולבצע משימות חישוביות מורכבות. מודלים יכולים להשתמש בכלים גם באינטראקציות רגילות של בקשה ותגובה וגם בסשנים של סטרימינג בזמן אמת באמצעות Live API.

‫Gemini API מספק חבילה של כלים מובנים ומנוהלים במלואם, שעברו אופטימיזציה לשימוש עם מודלים של Gemini. אפשר גם להגדיר כלים מותאמים אישית באמצעות קריאה לפונקציות.

כלים מובנים זמינים

כלי תיאור תרחישים לדוגמה
חיפוש Google התשובות מבוססות על אירועים עכשוויים ועובדות מהאינטרנט כדי לצמצם את התופעה של הזיות. – מענה לשאלות על אירועים מהזמן האחרון
– אימות עובדות בעזרת מקורות מגוונים
מפות Google ליצור עוזרים וירטואליים שמודעים למיקום, שיכולים למצוא מקומות, לקבל מסלולים ולספק הקשר מקומי עשיר. – תכנון מסלולי נסיעה עם כמה עצירות
– חיפוש עסקים מקומיים על סמך קריטריונים של המשתמש
ביצוע קוד לאפשר למודל לכתוב ולהריץ קוד Python כדי לפתור בעיות מתמטיות או לעבד נתונים בצורה מדויקת. – פתרון משוואות מתמטיות מורכבות
– עיבוד וניתוח של נתוני טקסט בצורה מדויקת
הקשר של כתובת ה-URL הנחיית המודל לקרוא ולנתח תוכן מדפי אינטרנט או ממסמכים ספציפיים. – מענה לשאלות על סמך כתובות URL או מסמכים ספציפיים
– אחזור מידע מדפי אינטרנט שונים
שימוש במחשב (תצוגה מקדימה) אפשר לאפשר ל-Gemini לצפות במסך וליצור פעולות לאינטראקציה עם ממשקי משתמש של דפדפני אינטרנט (ביצוע בצד הלקוח). – אוטומציה של תהליכי עבודה שחוזרים על עצמם באינטרנט
– בדיקה של ממשקי משתמש של אפליקציות אינטרנט
חיפוש קבצים יצירת אינדקס וחיפוש במסמכים שלכם כדי להפעיל יצירה משולבת-אחזור (RAG). – חיפוש במדריכים טכניים
– מענה לשאלות על נתונים קנייניים

פרטים על העלויות שמשויכות לכלים ספציפיים מופיעים בדף התמחור.

איך מתבצעת הרצת כלים

הכלים מאפשרים למודל לבקש פעולות במהלך שיחה. התהליך שונה בהתאם לסוג הכלי – כלי מובנה (בניהול Google) או כלי בהתאמה אישית (בניהול שלכם).

תהליך עבודה מובנה של כלי

בכלים מובנים כמו חיפוש Google או הפעלת קוד, התהליך כולו מתבצע בקריאה אחת ל-API:

  1. אתם שולחים הנחיה: "What is the square root of the latest stock price of GOOG?‎"
  2. Gemini מחליט שהוא צריך כלים ומריץ אותם בשרתים של Google (לדוגמה, מחפש את מחיר המניה ואז מריץ קוד Python כדי לחשב את השורש הריבועי).
  3. Gemini מחזיר את התשובה הסופית שמבוססת על תוצאות הכלי.

תהליך מותאם אישית של שימוש בכלי (בקשה להפעלת פונקציה)

בכלים מותאמים אישית ובשימוש במחשב, האפליקציה מטפלת בהרצה:

  1. אתם שולחים הנחיה עם הצהרות על פונקציות (כלים).
  2. יכול להיות ש-Gemini יחזיר JSON מובנה כדי לקרוא לפונקציה ספציפית (לדוגמה, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. אתם מריצים את הפונקציה באפליקציה או בסביבה שלכם.
  4. אתם שולחים את תוצאות הפונקציה בחזרה ל-Gemini.
  5. Gemini משתמש בתוצאות כדי ליצור תשובה סופית או קריאה נוספת לכלי.

מידע נוסף מפורט במדריך להפעלת פונקציות.

פלט מובנה לעומת בקשה להפעלת פונקציה

‫Gemini מציע שתי שיטות ליצירת פלט מובנה. משתמשים בקריאה לפונקציה כשהמודל צריך לבצע שלב ביניים על ידי התחברות לכלים או למערכות נתונים משלכם. כדאי להשתמש בפלט מובנה כשאתם צריכים שהתשובה הסופית של המודל תתאים לסכימה ספציפית, למשל כדי לעבד ממשק משתמש בהתאמה אישית.

פלט מובנה עם כלים

אתם יכולים לשלב פלט מובנה עם כלים מובנים כדי לוודא שהתשובות של המודל שמבוססות על נתונים חיצוניים או על חישובים עדיין עומדות בסכימה מחמירה.

דוגמאות קוד מופיעות במאמר בנושא פלט מובנה עם כלים.

סוכנים ליצירת מפות

סוכנים הם מערכות שמשתמשות במודלים ובכלים כדי לבצע משימות מרובות שלבים. ‫Gemini מספק את יכולות ההסקה (ה'מוח') ואת הכלים החיוניים (ה'ידיים'), אבל לרוב צריך מסגרת תזמור כדי לנהל את הזיכרון של הסוכן, לתכנן לולאות ולבצע שרשור מורכב של כלים.

כדי למקסם את המהימנות בתהליכי עבודה מרובי-שלבים, צריך ליצור הוראות ששולטות באופן מפורש בדרך שבה המודל מסיק מסקנות ומתכנן. Gemini מספק נימוקים כלליים חזקים, אבל סוכנים מורכבים נהנים מהנחיות שמכתיבות התנהגויות ספציפיות, כמו התמדה כשנתקלים בבעיות, הערכת סיכונים ותכנון פרואקטיבי.

במאמר תהליכי עבודה מבוססי-סוכן מפורטות אסטרטגיות לעיצוב ההנחיות האלה. הנה דוגמה להוראה למערכת ששיפרה את הביצועים בכמה מדדים של סוכנים בכ-5%.

מסגרות של סוכנים

‫Gemini משולב עם מסגרות סוכנים מובילות בקוד פתוח, כמו:

  • LangChain / LangGraph: יצירת תהליכי עבודה מורכבים של אפליקציות עם שמירת מצב ומערכות מרובות סוכנים באמצעות מבני גרפים.
  • LlamaIndex: חיבור סוכני Gemini לנתונים פרטיים כדי לשפר את תהליכי העבודה באמצעות RAG.
  • CrewAI: תזמורת של סוכני AI אוטונומיים שמשתפים פעולה ומגלמים תפקידים.
  • Vercel AI SDK: פיתוח ממשקי משתמש וסוכנים מבוססי-AI ב-JavaScript/TypeScript.
  • Google ADK: מסגרת קוד פתוח ליצירה ולניהול של סוכני AI שפועלים באופן הדדי.