وضوح رسانه
پارامتر media_resolution نحوه پردازش ورودیهای رسانهای مانند تصاویر، ویدیوها و اسناد PDF توسط API Gemini را با تعیین حداکثر تعداد توکنهای اختصاص داده شده برای ورودیهای رسانهای کنترل میکند و به شما امکان میدهد کیفیت پاسخ را در برابر تأخیر و هزینه متعادل کنید. برای تنظیمات مختلف، مقادیر پیشفرض و نحوه مطابقت آنها با توکنها، به بخش شمارش توکنها مراجعه کنید.
شما میتوانید وضوح رسانه را برای اشیاء رسانهای (موارد محتوا) در درخواست خود پیکربندی کنید (فقط Gemini 3).
وضوح رسانهای بر اساس هر محتوا (فقط Gemini 3)
Gemini 3 به شما امکان میدهد وضوح رسانه را برای اشیاء رسانهای منفرد در درخواست خود تنظیم کنید و بهینهسازی دقیقی از استفاده از توکن ارائه میدهد. میتوانید سطوح وضوح را در یک درخواست واحد ترکیب کنید. به عنوان مثال، از وضوح بالا برای یک نمودار پیچیده و وضوح پایین برای یک تصویر متنی ساده استفاده کنید.
پایتون
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
جاوا اسکریپت
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
استراحت
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
مقادیر وضوح موجود
رابط برنامهنویسی نرمافزار Gemini سطوح زیر را برای وضوح رسانه تعریف میکند:
-
unspecified: تنظیم پیشفرض. تعداد توکنها برای این سطح بین Gemini 3 و مدلهای قبلی Gemini به طور قابل توجهی متفاوت است. -
low: تعداد توکنهای کمتر، که منجر به پردازش سریعتر و هزینه کمتر میشود، اما با جزئیات کمتر. -
medium: تعادلی بین جزئیات، هزینه و تأخیر. -
high: تعداد توکنهای بالاتر، جزئیات بیشتری را برای کار با مدل فراهم میکند، اما به قیمت افزایش تأخیر و هزینه. -
ultra_high(فقط برای هر آیتم محتوایی): بالاترین تعداد توکن، مورد نیاز برای موارد استفاده خاص مانند استفاده از کامپیوتر .
توجه داشته باشید که high عملکرد بهینه را برای اکثر موارد استفاده فراهم میکند.
تعداد دقیق توکنهای تولید شده برای هر یک از این سطوح، هم به نوع رسانه (تصویر، ویدئو، PDF) و هم به نسخه مدل بستگی دارد.
شمارش توکنها
جداول زیر تعداد تقریبی توکنها را برای هر مقدار media_resolution و نوع رسانه در هر خانواده مدل خلاصه میکنند.
جمینی ۳ مدل
| وضوح رسانهای | تصویر | ویدئو | پی دی اف |
|---|---|---|---|
unspecified (پیشفرض) | ۱۱۲۰ | ۷۰ | ۵۶۰ |
low | ۲۸۰ | ۷۰ | ۲۸۰ + متن بومی |
medium | ۵۶۰ | ۷۰ | ۵۶۰ + متن بومی |
high | ۱۱۲۰ | ۲۸۰ | ۱۱۲۰ + متن بومی |
ultra_high | ۲۲۴۰ | ناموجود | ناموجود |
انتخاب رزولوشن مناسب
- پیشفرض (
unspecified): با پیشفرض شروع کنید. این مقدار برای ایجاد تعادل مناسب بین کیفیت، تأخیر و هزینه برای اکثر موارد استفاده رایج تنظیم شده است. -
low: برای سناریوهایی استفاده میشود که هزینه و تأخیر از اهمیت بالایی برخوردارند و جزئیات دقیق اهمیت کمتری دارند. -
medium/high: وقتی وظیفه نیاز به درک جزئیات پیچیده در رسانه دارد، وضوح را افزایش دهید. این اغلب برای تجزیه و تحلیل بصری پیچیده، خواندن نمودار یا درک اسناد حجیم مورد نیاز است. -
ultra_high- فقط برای تنظیمات هر آیتم محتوایی در دسترس است. برای موارد استفاده خاص مانند استفاده از کامپیوتر یا مواردی که آزمایش، بهبود واضحی نسبت بهhighنشان میدهد، توصیه میشود. - کنترل هر آیتم محتوا (Gemini 3): استفاده از توکن را بهینه میکند. برای مثال، در یک اعلان با چندین تصویر، برای یک نمودار پیچیده
highو برای تصاویر متنی سادهترlowیاmediumاستفاده کنید.
تنظیمات توصیه شده
در زیر تنظیمات وضوح رسانه توصیه شده برای هر نوع رسانه پشتیبانی شده فهرست شده است.
| نوع رسانه | تنظیمات توصیه شده | حداکثر توکنها | راهنمای استفاده |
|---|---|---|---|
| تصاویر | high | ۱۱۲۰ | برای اطمینان از حداکثر کیفیت، برای اکثر وظایف تحلیل تصویر توصیه میشود. |
| فایلهای PDF | medium | ۵۶۰ | برای درک اسناد بهینه است؛ کیفیت معمولاً در medium اشباع میشود. افزایش به high به ندرت نتایج OCR را برای اسناد استاندارد بهبود میبخشد. |
| ویدئو (عمومی) | low (یا medium ) | ۷۰ (در هر فریم) | توجه: برای ویدیو، تنظیمات low و medium به طور یکسان (70 توکن) در نظر گرفته میشوند تا استفاده از متن بهینه شود. این برای اکثر وظایف تشخیص و توصیف عمل کافی است. |
| ویدئو (پر از متن) | high | ۲۸۰ (در هر فریم) | فقط زمانی مورد نیاز است که مورد استفاده شامل خواندن متنهای متراکم (OCR) یا جزئیات کوچک در فریمهای ویدیویی باشد. |
همیشه تأثیر تنظیمات مختلف وضوح تصویر را بر روی برنامه خود آزمایش و ارزیابی کنید تا بهترین تعادل بین کیفیت، تأخیر و هزینه را پیدا کنید.
خلاصه سازگاری نسخهها
- تنظیم
resolutionبرای هر یک از آیتمهای محتوا منحصراً برای مدلهای Gemini 3 است.