המודלים של Gemini יכולים לעבד תמונות וסרטונים, וכך מאפשרים תרחישים לדוגמה רבים של מפתחים בתחומים חדשניים, שבעבר היו דורשים מודלים ספציפיים לדומיין. חלק מיכולות הראייה של Gemini כוללות את היכולת:
- הוספת כותרות ותשובות לשאלות על תמונות
- תמלול ושיוך של קובצי PDF, כולל עד 2 מיליון אסימונים
- תיאור, פילוח וחילוץ מידע מסרטונים באורך של עד 90 דקות
- זיהוי אובייקטים בתמונה והחזרת קואורדינטות של תיבת מלבנית להיקף שלהם
Gemini נוצר כפלטפורמה מולטימודאלית מלכתחילה, ואנחנו ממשיכים להרחיב את גבולות האפשר.
המאמרים הבאים
במדריך הזה מוסבר איך להעלות קובצי תמונות וסרטונים באמצעות File API, ואז ליצור פלט טקסט ממידע קלט של תמונות וסרטונים. מידע נוסף זמין במקורות המידע הבאים:
- אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו וסרטונים, שנקראות גם בקשות להעלאת קבצים במגוון מודלים.
- הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים ולתרחישים הספציפיים שלכם.
- הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד תמונה (Post Processing) והערכה אנושית חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.