הנחיות עם קובצי מדיה


להצגה ב-ai.google.dev הפעלה ב-Google Colab הצגת המקור ב-GitHub

ב-Gemini API יש תמיכה בהנחיות באמצעות נתונים של טקסט, תמונה, אודיו ווידאו, שנקראים גם הנחיות ריבוי מודלים, כלומר אפשר לכלול את סוגי קובצי המדיה האלה בהנחיות. בקבצים קטנים, אפשר להפנות את המודל של Gemini ישירות לקובץ מקומי כשמזינים הנחיה. מעלים קבצים גדולים יותר באמצעות File API לפני שכוללים אותם בהודעות.

באמצעות File API אפשר לאחסן עד 20GB של קבצים לכל פרויקט, והגודל של כל קובץ לא חורג מ-2GB. הקבצים מאוחסנים למשך 48 שעות, וניתן לגשת אליהם באמצעות מפתח ה-API במהלך היצירה במהלך התקופה הזו, ואי אפשר להוריד אותם מה-API. Files API זמין ללא עלות בכל האזורים שבהם Gemini API זמין.

ה-File API מטפל בקלט שאפשר להשתמש בו כדי ליצור תוכן באמצעות model.generateContent או model.streamGenerateContent. למידע על פורמטים תקינים של קבצים (סוגי MIME) ומודלים נתמכים, ראו פורמטים נתמכים של קבצים.

במדריך הזה מוסבר איך להשתמש ב-File API כדי להעלות קובצי מדיה ולכלול אותם בקריאת GenerateContent ל-Gemini API. למידע נוסף, ראו דוגמאות קוד.

פורמטי קבצים נתמכים

המודלים של Gemini תומכים ביצירת הנחיות בכמה פורמטים של קבצים. בקטע הזה מתוארים השיקולים לשימוש בפורמטים כלליים של מדיה להנחיות, במיוחד בקובצי תמונה, אודיו, וידאו וטקסט פשוט. אפשר להשתמש בקובצי מדיה כדי להנחיות רק בגרסאות ספציפיות של מודלים, כפי שמוצג בטבלה הבאה.

מודל תמונות אודיו סרטון טקסט פשוט
Gemini 1.5 Pro (גרסה 008 ואילך) ✔ (3,600 קובצי תמונה לכל היותר)

פורמטים של תמונות

אתם יכולים להשתמש בנתוני תמונה כדי ליצור הנחיות במודלים של Gemini 1.5. כשמשתמשים בתמונות כדי ליצור הנחיות, הן כפופות למגבלות ולדרישות הבאות:

  • התמונות צריכות להיות באחד מסוגי ה-MIME הבאים של נתוני התמונה:
    • PNG - תמונה/png
    • JPEG - תמונה/jpeg
    • WEBP - תמונה/webp
    • HEIC - תמונה/heic
    • HEIF – תמונה/heif
  • עד 3,600 תמונות במודלים של Gemini 1.5.
  • אין מגבלות ספציפיות על מספר הפיקסלים בתמונה. עם זאת, תמונות גדולות יותר מוקטנות כדי להתאים לרזולוציה מקסימלית של 3,072x3,072 תוך שמירה על יחס הגובה-רוחב המקורי.

פורמטים של אודיו

במודלים של Gemini 1.5, אתם יכולים להשתמש בנתוני אודיו ליצירת הנחיות. כשמשתמשים באודיו להנחיות, הם כפופים למגבלות ולדרישות הבאות:

  • נתוני האודיו נתמכים בסוגי ה-MIME הנפוצים הבאים:
    • WAV – אודיו/WAV
    • MP3 - אודיו/mp3
    • AIFF - אודיו/aiff
    • AAC – אודיו/aac
    • OGG Vorbis – אודיו/ogg
    • FLAC – אודיו/flac
  • האורך המקסימלי הנתמך של נתוני אודיו בהנחיה יחידה הוא 9.5 שעות.
  • קובצי האודיו נדגמים מחדש ברזולוציית נתונים של 16 Kbps, ומספר ערוצי אודיו משולבים בערוץ אחד.
  • אין מגבלה ספציפית על מספר קובצי האודיו בהנחיה אחת, אבל האורך הכולל של כל קובצי האודיו בהנחיה אחת לא יכול לחרוג מ-9.5 שעות.

פורמטים של סרטונים

במודלים של Gemini 1.5, אתם יכולים להשתמש בנתונים של סרטונים כדי ליצור הנחיות.

  • נתוני וידאו נתמכים בסוגי ה-MIME הנפוצים הבאים של וידאו:

    • video/mp4
    • וידאו/mpeg
    • וידאו/mov
    • וידאו/avi
    • video/x-flv
    • וידאו/mpg
    • וידאו/אינטרנט
    • סרטון/wmv
    • וידאו/3gpp
  • שירות File API דוגם סרטונים לתמונות בקצב של פריים אחד לשנייה (FPS), ועשוי להשתנות כדי לספק את איכות ההסקה הטובה ביותר. תמונות בודדות משתמשות ב-258 אסימונים ללא קשר לרזולוציה ולאיכות.

פורמטים של טקסט פשוט

ה-File API תומך בהעלאה של קובצי טקסט פשוט עם סוגי ה-MIME הבאים:

  • טקסט/פשוט
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • טקסט/x-typescript
  • application/x-typescript
  • טקסט/csv
  • טקסט/סימון
  • טקסט/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • אפליקציה/rtf
  • טקסט/rtf

כשמדובר בקובצי טקסט פשוט שסוג MIME לא מופיע ברשימה, אתם יכולים לנסות לציין באופן ידני את אחד מסוגי ה-MIME שלמעלה.