שימוש בכלים עם Gemini API

הכלים מרחיבים את היכולות של מודלי Gemini, ומאפשרים להם לבצע פעולות בעולם, לגשת למידע בזמן אמת ולבצע משימות חישוביות מורכבות. מודלים יכולים להשתמש בכלים גם באינטראקציות רגילות של בקשה ותגובה וגם בסשנים של סטרימינג בזמן אמת באמצעות Live API.

‫Gemini API מספק חבילה של כלים מובנים ומנוהלים במלואם, שעברו אופטימיזציה לשימוש במודלים של Gemini. אפשר גם להגדיר כלים מותאמים אישית באמצעות קריאה לפונקציות.

כלים מובנים זמינים

כלי תיאור תרחישים לדוגמה
חיפוש Google התשובות מבוססות על אירועים עדכניים ועובדות מהאינטרנט כדי לצמצם את התופעה של הזיות. – מענה לשאלות לגבי אירועים מהזמן האחרון
– אימות עובדות בעזרת מקורות מגוונים
מפות Google פיתוח עוזרים וירטואליים שמודעים למיקום, שיכולים למצוא מקומות, לקבל מסלולים ולספק הקשר מקומי עשיר. – תכנון מסלולי נסיעה עם כמה עצירות
– חיפוש עסקים מקומיים על סמך קריטריונים של המשתמש
ביצוע קוד לאפשר למודל לכתוב ולהריץ קוד Python כדי לפתור בעיות מתמטיות או לעבד נתונים בצורה מדויקת. – פתרון משוואות מתמטיות מורכבות
– עיבוד וניתוח של נתוני טקסט בצורה מדויקת
הקשר של כתובת ה-URL הנחיית המודל לקרוא ולנתח תוכן מדפי אינטרנט או ממסמכים ספציפיים. – מענה לשאלות על סמך כתובות URL או מסמכים ספציפיים
– אחזור מידע מדפי אינטרנט שונים
שימוש במחשב (תצוגה מקדימה) אפשר לאפשר ל-Gemini לצפות במסך וליצור פעולות ליצירת אינטראקציה עם ממשקי משתמש של דפדפני אינטרנט (ביצוע בצד הלקוח). – אוטומציה של תהליכי עבודה חוזרים שמבוססים על אינטרנט
– בדיקה של ממשקי משתמש של אפליקציות אינטרנט
חיפוש קבצים יצירת אינדקס וחיפוש במסמכים שלכם כדי להפעיל יצירה משופרת באמצעות אחזור (RAG). – חיפוש במדריכים טכניים
– מענה לשאלות על נתונים קנייניים

פרטים על העלויות שמשויכות לכלים ספציפיים מופיעים בדף התמחור.

איך מתבצעת הרצת כלים

הכלים מאפשרים למודל לבקש פעולות במהלך שיחה. התהליך שונה בהתאם לסוג הכלי – כלי מובנה (בניהול Google) או כלי בהתאמה אישית (בניהול שלכם).

תהליך עבודה מובנה של כלי

בכלים מובנים כמו חיפוש Google או הפעלת קוד, התהליך כולו מתבצע בקריאה אחת ל-API:

  1. אתם שולחים הנחיה: "What is the square root of the latest stock price of GOOG?"
  2. Gemini מחליט שהוא צריך כלים ומריץ אותם בשרתים של Google (לדוגמה, מחפש את מחיר המניה ואז מריץ קוד Python כדי לחשב את השורש הריבועי).
  3. Gemini מחזיר את התשובה הסופית שמבוססת על תוצאות הכלי.

תהליך מותאם אישית של שימוש בכלי (בקשה להפעלת פונקציה)

בכלים מותאמים אישית ובשימוש במחשב, האפליקציה מטפלת בהרצה:

  1. אתם שולחים הנחיה עם הצהרות על פונקציות (כלים).
  2. יכול להיות ש-Gemini יחזיר JSON מובנה כדי לקרוא לפונקציה ספציפית (לדוגמה, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. אתם מריצים את הפונקציה באפליקציה או בסביבה שלכם.
  4. אתם שולחים את תוצאות הפונקציה בחזרה ל-Gemini.
  5. Gemini משתמש בתוצאות כדי ליצור תשובה סופית או קריאה נוספת לכלי.

מידע נוסף מפורט במדריך להפעלת פונקציות.

פלט מובנה לעומת בקשה להפעלת פונקציה

‫Gemini מציע שתי שיטות ליצירת פלט מובנה. משתמשים בקריאה לפונקציה כשהמודל צריך לבצע שלב ביניים על ידי התחברות לכלים או למערכות נתונים משלכם. כדאי להשתמש בפלט מובנה כשאתם צריכים שהתשובה הסופית של המודל תתאים לסכימה ספציפית, למשל כדי לעבד ממשק משתמש בהתאמה אישית.

סוכנים ליצירת מפות

סוכנים הם מערכות שמשתמשות במודלים ובכלים כדי להשלים משימות מרובות שלבים. ‫Gemini מספק את יכולות ההסקה (ה'מוח') ואת הכלים החיוניים (ה'ידיים'), אבל לרוב צריך מסגרת תזמור כדי לנהל את הזיכרון של הסוכן, לתכנן לולאות ולבצע שרשור מורכב של כלים.

‫Gemini משולב עם מסגרות סוכנים מובילות בקוד פתוח:

  • LangChain / LangGraph: יצירת תהליכי עבודה מורכבים של אפליקציות עם שמירת מצב ומערכות מרובות סוכנים באמצעות מבני גרפים.
  • LlamaIndex: חיבור סוכני Gemini לנתונים פרטיים כדי לשפר את תהליכי העבודה באמצעות RAG.
  • CrewAI: תזמור של סוכני AI אוטונומיים שמשתפים פעולה ומגלמים תפקידים.
  • Vercel AI SDK: פיתוח ממשקי משתמש וסוכנים מבוססי-AI ב-JavaScript/TypeScript.
  • Google ADK: מסגרת קוד פתוח ליצירה ולניהול של סוכני AI שפועלים יחד.