Gemini API מאפשר לבחון יכולות של ראייה ממוחשבת

Gemini API יכול לעבד תמונות וסרטונים, ומאפשר למפתחים להשתמש בו במגוון רחב של תרחישי שימוש מעניינים. חלק מיכולות הראייה של Gemini כוללות את היכולת:

  • הוספת כותרות לתמונות וענות על שאלות לגביהן
  • תמלול ושיוך של קובצי PDF, כולל מסמכים ארוכים עם חלון הקשר שיכול להכיל עד 2 מיליון אסימונים
  • לתאר, לפלח ולחלץ מידע מסרטונים, כולל פריימים חזותיים ואודיו, באורך של עד 90 דקות
  • זיהוי אובייקטים בתמונה והחזרת קואורדינטות של תיבת מלבנית להיקף שלהם

במדריך הזה נסביר כמה דרכים אפשריות להנחות את Gemini API באמצעות קלט של תמונות וסרטונים, נציג דוגמאות לקוד ונפרט שיטות מומלצות להנחיה באמצעות יכולות ראייה מולטימודליות. כל הפלט הוא טקסט בלבד.

המאמרים הבאים

במדריך הזה מוסבר איך להעלות קובצי תמונות וסרטונים באמצעות File API, ואז ליצור פלט טקסט ממידע קלט של תמונות וסרטונים. מידע נוסף זמין במשאבים הבאים:

  • אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו ווידאו, שנקראות גם בקשות להצגת נתונים במגוון מודלים.
  • הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים ולתרחישים הספציפיים שלכם.
  • הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד תמונה (Post Processing) והערכה אנושית הם חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.