Gemini API מאפשר לבחון יכולות של ראייה ממוחשבת

להצגה ב-ai.google.dev הפעלה ב-Google Colab הצגת המקור ב-GitHub

Gemini API יכול להריץ מסקנות על התמונות והסרטונים שמועברים אליו. בסיום הבדיקה תמונה, סדרת תמונות או סרטון, Gemini יכול:

  • תיאור או מענה על שאלות לגבי התוכן
  • סיכום התוכן
  • השלכה מהתוכן

במדריך הזה מפורטות כמה דרכים אפשריות להנחיות של Gemini API תמונות וקלט וידאו. כל הפלט הוא טקסט בלבד.

המאמרים הבאים

במדריך הזה מוסבר איך משתמשים generateContent ו- כדי לייצר פלטי טקסט מערכי קלט של תמונה ווידאו. למידע נוסף, אפשר להיעזר במקורות המידע הבאים:

  • הצגת הנחיות עם קובצי מדיה: Gemini API תומך בהנחיות באמצעות נתונים של טקסט, תמונה, אודיו ווידאו, שנקרא 'הנחיות מרובות מצבים'.
  • הוראות מערכת: מערכת מאפשרות לכם להשפיע על אופן הפעולה של המודל לצרכים ולתרחישים לדוגמה.
  • הנחיות בטיחות: לפעמים בינה מלאכותית גנרטיבית מודלים שמקורם בפלט לא צפוי, כמו פלט לא מדויק מוטה או פוגעני. חשוב מאוד לבצע הערכה לאחר עיבוד והערכה אנושית להגביל את הסיכון לנזק מפלט כזה.