הנחיות עם קובצי מדיה


לצפייה ב-ai.google.dev הפעלה ב-Google Colab הצגת המקור ב-GitHub

ב-Gemini API יש תמיכה בהצגת הנחיות עם נתונים של טקסט, תמונה, אודיו ווידאו, שנקראות גם הנחיות בריבוי שיטות. כלומר, אפשר לכלול בהנחיות את הסוגים האלה של קובצי מדיה. בקבצים קטנים אפשר להפנות את מודל Gemini ישירות לקובץ מקומי כששולחים הנחיה. כדאי להעלות קבצים גדולים יותר באמצעות File API לפני שכוללים אותם בהודעות.

ה-File API מאפשר לאחסן עד 20GB של קבצים לכל פרויקט, כשגודל כל קובץ לא חורג מ-2GB. הקבצים מאוחסנים למשך 48 שעות ואפשר לגשת אליהם באמצעות מפתח ה-API כדי ליצור אותם בפרק הזמן הזה, ואי אפשר להוריד אותם מה-API. Files API זמין ללא עלות בכל האזורים שבהם Gemini API זמין.

ה-File API מטפל במקורות קלט שבהם אפשר להשתמש כדי ליצור תוכן באמצעות model.generateContent או model.streamGenerateContent. למידע נוסף על פורמטים חוקיים של קבצים (סוגי MIME) ומודלים נתמכים, קראו את המאמר פורמטים נתמכים של קבצים.

במדריך הזה מוסבר איך להשתמש ב-File API כדי להעלות קובצי מדיה ולכלול אותם בקריאת GenerateContent ל-Gemini API. למידע נוסף קראו את דוגמאות הקוד.

פורמטי קבצים נתמכים

דגמי Gemini תומכים בהנחיה עם מספר פורמטים של קבצים. בקטע הזה מתוארים שיקולים שיש לקחת בחשבון כשמשתמשים בפורמטים כלליים של מדיה ליצירת הנחיות, ובמיוחד קובצי תמונה, אודיו, וידאו וטקסט פשוט. אפשר להשתמש בקובצי מדיה כדי להציע הנחיות רק בגרסאות של דגמים ספציפיים, כפי שמוצג בטבלה הבאה.

דגם תמונות אודיו סרטון טקסט פשוט
Gemini 1.5 Pro (גרסה 008 ואילך) ✔ (קובצי תמונה 3600 לכל היותר)
Gemini Pro Vision ✔ (16 קובצי תמונה לכל היותר)

פורמטים של תמונות

אפשר להשתמש בנתוני תמונה להנחיות במודלים gemini-pro-vision ו-gemini-1.5-pro. כשמשתמשים בתמונות ליצירת הנחיות, הן כפופות למגבלות ולדרישות הבאות:

  • תמונות חייבות להיות באחד מנתוני התמונה הבאים, סוגי MIME:
    • PNG - תמונה/png
    • JPEG - תמונה/jpeg
    • WEBP - תמונה/webp
    • HEIC - תמונה/מקור
    • HEIF - תמונה/heif
  • עד 16 תמונות בודדות עבור gemini-pro-vision ו-3600 תמונות עבור gemini-1.5-pro
  • אין מגבלה ספציפית על מספר הפיקסלים בתמונה; עם זאת, תמונות גדולות יותר מוקטנות כדי להתאים לרזולוציה מקסימלית של 3,072x3,072 תוך שמירה על יחס הגובה-רוחב המקורי שלהן.

פורמטים של אודיו

במודל gemini-1.5-pro אפשר להשתמש בנתוני האודיו לשליחת הנחיות. כשאתם משתמשים באודיו לשליחת הנחיות, הן כפופות למגבלות ולדרישות הבאות:

  • נתוני האודיו נתמכים בפורמט האודיו הנפוץ הבא סוגי MIME:
    • WAV – אודיו/wav
    • MP3 – אודיו/mp3
    • AIFF – אודיו/aiff
    • AAC – אודיו/aac
    • OGG Vorbis – אודיו/ogg
    • FLAC – אודיו/flac
  • האורך המקסימלי הנתמך של נתוני אודיו בהודעה אחת הוא 9.5 שעות.
  • קובצי האודיו נדגמים מחדש לרזולוציית נתונים של 16Kbps, וערוצי אודיו מרובים משולבים לערוץ אחד.
  • אין מגבלה ספציפית על מספר קובצי האודיו בהנחיה אחת, אבל יחד עם זאת, האורך הכולל של כל קובצי האודיו בהנחיה אחת לא יכול לחרוג מ-9.5 שעות.

פורמטים של סרטונים

אפשר להשתמש בנתוני הווידאו להנחיות עם המודל gemini-1.5-pro.

  • נתוני וידאו נתמכים בסוגי ה-MIME הנפוצים הבאים:

    • video/mp4
    • סרטון/mpeg
    • וידאו/העברה
    • וידאו/avi
    • video/x-flv
    • וידאו/mpg
    • וידאו/אינטרנט
    • וידאו/wmv
    • וידאו/3gpp
  • שירות File API מבצע דגימה של סרטונים לתמונות בקצב של פריים אחד לשנייה (FPS) ועשוי להשתנות כדי לספק את איכות הסקת המסקנות הטובה ביותר. תמונות בודדות תופסות 258 אסימונים ללא קשר לרזולוציה ולאיכות.

פורמטים של טקסט פשוט

File API תומך בהעלאה של קובצי טקסט פשוט עם סוגי ה-MIME הבאים:

  • טקסט/רגיל
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • טקסט/csv
  • טקסט/תגי עיצוב
  • טקסט/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • יישום/rtf
  • טקסט/rtf

בקובצי טקסט פשוט עם סוג MIME שלא מופיע ברשימה, אפשר לנסות לציין באופן ידני אחד מסוגי ה-MIME שלמעלה.