मीडिया रिज़ॉल्यूशन
media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, इमेज, वीडियो, और PDF दस्तावेज़ जैसे मीडिया इनपुट को कैसे प्रोसेस करे. इसके लिए, यह तय किया जाता है कि मीडिया इनपुट के लिए ज़्यादा से ज़्यादा कितने टोकन असाइन किए जाएं. इससे, आपको जवाब की क्वालिटी, लेटेन्सी, और लागत के बीच संतुलन बनाए रखने में मदद मिलती है. अलग-अलग सेटिंग, डिफ़ॉल्ट वैल्यू, और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए टोकन की संख्या सेक्शन देखें.
आपके पास अपने अनुरोध में मौजूद हर मीडिया ऑब्जेक्ट (कॉन्टेंट आइटम) के लिए, मीडिया रिज़ॉल्यूशन कॉन्फ़िगर करने का विकल्प होता है. यह सुविधा सिर्फ़ Gemini 3 के लिए उपलब्ध है.
हर कॉन्टेंट आइटम के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3 के लिए)
Gemini 3 की मदद से, अनुरोध में शामिल हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्स्ट वाली इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
उपलब्ध रिज़ॉल्यूशन वैल्यू
Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:
unspecified: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पिछले मॉडल के बीच काफ़ी अलग-अलग होती है.low: इसमें टोकन की संख्या कम होती है. इसलिए, यह तेज़ी से प्रोसेस होता है और इसकी लागत भी कम होती है. हालांकि, इसमें कम जानकारी मिलती है.medium: इसमें बारीकी से जानकारी देने, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.high: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इससे लेटेन्सी और लागत बढ़ जाती है.ultra_high(सिर्फ़ हर कॉन्टेंट आइटम के लिए): सबसे ज़्यादा टोकन की संख्या. यह कंप्यूटर के इस्तेमाल जैसे कुछ खास मामलों के लिए ज़रूरी है.
ध्यान दें कि high, ज़्यादातर इस्तेमाल के मामलों में सबसे अच्छी परफ़ॉर्मेंस देता है.
इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया टाइप (इमेज, वीडियो, PDF) और मॉडल वर्शन, दोनों पर निर्भर करती है.
टोकन की संख्या
यहां दी गई टेबल में, हर मॉडल फ़ैमिली के लिए, हर media_resolution वैल्यू और मीडिया टाइप के हिसाब से टोकन की अनुमानित संख्या की खास जानकारी दी गई है.
Gemini 3 के मॉडल
| MediaResolution | इमेज | वीडियो | |
|---|---|---|---|
unspecified (डिफ़ॉल्ट) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + नेटिव टेक्स्ट |
medium |
560 | 70 | 560 + नेटिव टेक्स्ट |
high |
1120 | 280 | 1120 + नेटिव टेक्स्ट |
ultra_high |
2240 | लागू नहीं | लागू नहीं |
सही रिज़ॉल्यूशन चुनना
- डिफ़ॉल्ट (
unspecified): डिफ़ॉल्ट से शुरू करें. इसे क्वालिटी, स्पीड, और कीमत के हिसाब से सबसे सही माना जाता है. low: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम होता है. साथ ही, जहां ज़्यादा जानकारी देना ज़रूरी नहीं होता.medium/high: जब टास्क में मीडिया की जटिल जानकारी को समझना ज़रूरी हो, तब रिज़ॉल्यूशन बढ़ाएं. आम तौर पर, इसकी ज़रूरत जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या बड़े दस्तावेज़ को समझने के लिए होती है.ultra_high- यह सुविधा, कॉन्टेंट के हर आइटम के लिए सेटिंग में ही उपलब्ध है. इसका सुझाव कुछ खास मामलों में दिया जाता है. जैसे, कंप्यूटर का इस्तेमाल करने या जहां टेस्टिंग से पता चलता है किhighकी तुलना में यह बेहतर है.- हर कॉन्टेंट आइटम के हिसाब से कंट्रोल (Gemini 3): इससे टोकन के इस्तेमाल को ऑप्टिमाइज़ किया जाता है. उदाहरण के लिए, कई इमेज वाले प्रॉम्प्ट में, जटिल डायग्राम के लिए
highका इस्तेमाल करें. वहीं, कॉन्टेक्स्ट के हिसाब से आसान इमेज के लिएlowयाmediumका इस्तेमाल करें.
सुझाई गई सेटिंग
यहां दी गई सूची में, हर मीडिया टाइप के लिए सुझाए गए मीडिया रिज़ॉल्यूशन की सेटिंग दी गई हैं.
| मीडिया किस तरह का है | सुझाई गई सेटिंग | ज़्यादा से ज़्यादा टोकन | इस्तेमाल से जुड़े दिशा-निर्देश |
|---|---|---|---|
| इमेज | high |
1120 | ज़्यादातर इमेज विश्लेषण के टास्क के लिए, इस विकल्प का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके. |
medium |
560 | दस्तावेज़ को समझने के लिए सबसे सही; क्वालिटी आम तौर पर medium पर पहुंच जाती है. high बढ़ाने से, स्टैंडर्ड दस्तावेज़ों के लिए ओसीआर के नतीजों में कभी-कभार ही सुधार होता है. |
|
| वीडियो (सामान्य) | low (या medium) |
70 (हर फ़्रेम के लिए) | ध्यान दें: वीडियो के लिए, कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, low और medium सेटिंग को एक जैसा (70 टोकन) माना जाता है. यह कार्रवाई की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है. |
| वीडियो (इसमें ज़्यादातर टेक्स्ट होता है) | high |
280 (हर फ़्रेम के लिए) | इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में टेक्स्ट को पढ़ना (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी चीज़ों को पढ़ना शामिल हो. |
हमेशा अलग-अलग रिज़ॉल्यूशन सेटिंग का इस्तेमाल करके, अपने ऐप्लिकेशन पर उनके असर का आकलन करें. इससे आपको क्वालिटी, लेटेन्सी, और लागत के बीच सबसे सही समझौता करने में मदद मिलेगी.
वर्शन के साथ काम करने की सुविधा के बारे में खास जानकारी
resolutionको कॉन्टेंट के अलग-अलग आइटम पर सेट करने की सुविधा, सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.
अगले चरण
- इमेज को समझने, वीडियो को समझने, और दस्तावेज़ को समझने से जुड़ी गाइड में, Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानें.