רזולוציית המדיה
הפרמטר media_resolution קובע איך Gemini API מעבד קלט של מדיה כמו תמונות, סרטונים ומסמכי PDF. הוא מגדיר את מספר הטוקנים המקסימלי שמוקצה לקלט של מדיה, וכך מאפשר לכם לאזן בין איכות התשובה לבין זמן האחזור והעלות. בקטע ספירת טוקנים מפורטים ערכי ברירת המחדל של הגדרות שונות והטוקנים שמתאימים להן.
אתם יכולים להגדיר את רזולוציית המדיה לאובייקטים ספציפיים של מדיה (פריטי תוכן) בבקשה (רק ב-Gemini 3).
רזולוציית מדיה לכל פריט תוכן (Gemini 3 בלבד)
Gemini 3 מאפשר לכם להגדיר את רזולוציית המדיה לאובייקטים ספציפיים של מדיה בבקשה, וכך לבצע אופטימיזציה פרטנית של השימוש בטוקנים. אפשר לשלב רמות רזולוציה שונות בבקשה אחת. לדוגמה, שימוש ברזולוציה גבוהה לתרשים מורכב וברזולוציה נמוכה לתמונה פשוטה שמוצגת בהקשר מסוים.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
ערכי הרזולוציה הזמינים
ב-Gemini API מוגדרות רמות הרזולוציה הבאות למדיה:
-
unspecified: הגדרת ברירת המחדל. מספר הטוקנים ברמה הזו משתנה באופן משמעותי בין Gemini 3 לבין מודלים קודמים של Gemini. -
low: מספר אסימונים נמוך יותר, שמוביל לעיבוד מהיר יותר ולעלות נמוכה יותר, אבל עם פחות פרטים. -
medium: איזון בין רמת הפירוט, העלות וההשהיה. -
high: מספר גבוה יותר של טוקנים, שמספק למודל יותר פרטים לעבודה, אבל על חשבון עלות גבוהה יותר וזמן אחזור ארוך יותר. -
ultra_high(לכל פריט תוכן בלבד): מספר האסימונים הגבוה ביותר, נדרש לתרחישי שימוש ספציפיים כמו שימוש במחשב.
חשוב לזכור שהמערך high מספק את הביצועים האופטימליים ברוב תרחישי השימוש.
המספר המדויק של הטוקנים שנוצרו לכל אחת מהרמות האלה תלוי בסוג המדיה (תמונה, סרטון, PDF) ובגרסת המודל.
מספר הטוקנים
בטבלאות הבאות מופיע סיכום של מספר האסימונים המשוער לכל ערך media_resolution ולכל סוג מדיה, לפי משפחת מודלים.
מודלים של Gemini 3
| MediaResolution | תמונה | וידאו | |
|---|---|---|---|
unspecified (ברירת מחדל) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + טקסט מותאם |
medium |
560 | 70 | 560 + טקסט מותאם |
high |
1120 | 280 | 1120 + טקסט מותאם |
ultra_high |
2240 | לא רלוונטי | לא רלוונטי |
בחירת הרזולוציה המתאימה
- ברירת מחדל (
unspecified): מתחילים עם ברירת המחדל. הוא מותאם לאיזון טוב בין איכות, זמן אחזור ועלות ברוב התרחישים הנפוצים. -
low: מתאים לתרחישים שבהם העלות והחביון הם בעלי חשיבות עליונה, ופרטים מדויקים פחות קריטיים. -
medium/high: הגדלת הרזולוציה כשנדרשת הבנה של פרטים מורכבים במדיה. היכולת הזו נדרשת לרוב לניתוח חזותי מורכב, לקריאת תרשימים או להבנת מסמכים עמוסים במידע. -
ultra_high– זמין רק להגדרה של כל פריט תוכן. מומלץ לתרחישי שימוש ספציפיים, כמו שימוש במחשב, או במקרים שבהם בדיקות מראות שיפור ברור לעומתhigh. - שליטה בכל פריט תוכן (Gemini 3): אופטימיזציה של השימוש בטוקנים. לדוגמה, בהנחיה עם כמה תמונות, אפשר להשתמש ב-
highלדיאגרמה מורכבת וב-lowאו ב-mediumלתמונות פשוטות יותר עם הקשר.
הגדרות מומלצות
ברשימה הבאה מפורטות הגדרות הרזולוציה המומלצות של המדיה לכל סוג מדיה נתמך.
| סוג מדיה | הגדרה מומלצת | מקסימום טוקנים | הנחיות לשימוש |
|---|---|---|---|
| תמונות | high |
1120 | מומלץ לרוב משימות ניתוח התמונות כדי להבטיח איכות מקסימלית. |
| קובצי PDF | medium |
560 | אופטימלי להבנת מסמכים; האיכות מגיעה בדרך כלל לנקודת רוויה ב-medium. הגדלה ל-high משפרת לעיתים רחוקות את תוצאות ה-OCR במסמכים רגילים. |
| סרטון (כללי) | low (או medium) |
70 (לכל פריים) | הערה: כשמדובר בסרטונים, ההגדרות low ו-medium מטופלות באופן זהה (70 טוקנים) כדי למקסם את השימוש בהקשר. זה מספיק לרוב המשימות של זיהוי ותיאור פעולות. |
| סרטון (עם הרבה טקסט) | high |
280 (לכל פריים) | נדרש רק אם תרחיש השימוש כולל קריאת טקסט צפוף (OCR) או פרטים קטנים בתוך פריים של סרטון. |
חשוב תמיד לבדוק ולהעריך את ההשפעה של הגדרות רזולוציה שונות על האפליקציה כדי למצוא את האיזון הטוב ביותר בין איכות, זמן אחזור ועלות.
סיכום תאימות הגרסה
- האפשרות להגדיר את
resolutionלפריטי תוכן ספציפיים זמינה רק במודלים של Gemini 3.
השלבים הבאים
- במדריכים בנושא הבנת תמונות, הבנת סרטונים והבנת מסמכים אפשר לקרוא מידע נוסף על היכולות המולטי-מודאליות של Gemini API.