media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, मीडिया इनपुट को कैसे प्रोसेस करता है. जैसे, इमेज, वीडियो, और PDF दस्तावेज़. इसके लिए, मीडिया इनपुट के लिए ज़्यादा से ज़्यादा टोकन की संख्या तय की जाती है. इससे, रिस्पॉन्स की क्वालिटी, इंतज़ार का समय, और लागत के बीच बैलेंस बनाया जा सकता है. अलग-अलग सेटिंग के लिए, डिफ़ॉल्ट वैल्यू और वे टोकन से कैसे जुड़ी होती हैं, यह जानने के लिए टोकन की संख्या वाला सेक्शन देखें.
अपने अनुरोध (सिर्फ़ Gemini 3) में, मीडिया के अलग-अलग ऑब्जेक्ट (कॉन्टेंट आइटम) के लिए मीडिया रिज़ॉल्यूशन कॉन्फ़िगर किया जा सकता है.
हर कॉन्टेंट आइटम के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3)
Gemini 3 में, अपने अनुरोध में मीडिया के अलग-अलग ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे, टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्चुअल इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना.
Python
from google import genai
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3.5-flash",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.output_text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mime_type: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3.5-flash",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mime_type: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.output_text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3.5-flash",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
उपलब्ध रिज़ॉल्यूशन वैल्यू
Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:
unspecified: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पुराने मॉडल के बीच काफ़ी अलग-अलग होती है.low: इसमें टोकन की संख्या कम होती है. इससे, प्रोसेसिंग की स्पीड बढ़ती है और लागत कम होती है. हालांकि, इसमें कम जानकारी मिलती है.medium: इसमें जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.high: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इसमें इंतज़ार का समय और लागत बढ़ जाती है.ultra_high(सिर्फ़ हर कॉन्टेंट आइटम के लिए): इसमें टोकन की संख्या सबसे ज़्यादा होती है. इसका इस्तेमाल, खास इस्तेमाल के उदाहरणों के लिए किया जाता है. जैसे, कंप्यूटर का इस्तेमाल.
ध्यान दें कि ज़्यादातर इस्तेमाल के उदाहरणों के लिए, high सेटिंग से सबसे अच्छी परफ़ॉर्मेंस मिलती है.
इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया के टाइप (इमेज, वीडियो, PDF) और मॉडल के वर्शन दोनों पर निर्भर करती है.
टोकन की संख्या
यहां दी गई टेबल में, मॉडल के हर परिवार के लिए, media_resolution की हर वैल्यू और मीडिया के टाइप के हिसाब से, टोकन की अनुमानित संख्या की खास जानकारी दी गई है.
Gemini 3 मॉडल
| MediaResolution | इमेज | वीडियो | |
|---|---|---|---|
unspecified (डिफ़ॉल्ट) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + नेटिव टेक्स्ट |
medium |
560 | 70 | 560 + नेटिव टेक्स्ट |
high |
1120 | 280 | 1120 + नेटिव टेक्स्ट |
ultra_high |
2240 | लागू नहीं | लागू नहीं |
सही रिज़ॉल्यूशन चुनना
- डिफ़ॉल्ट (
unspecified): डिफ़ॉल्ट सेटिंग से शुरू करें. इसे, ज़्यादातर इस्तेमाल के उदाहरणों के लिए, क्वालिटी, इंतज़ार के समय, और लागत के बीच बेहतर बैलेंस के लिए ऑप्टिमाइज़ किया गया है. low: इसका इस्तेमाल उन स्थितियों के लिए करें जहां लागत और इंतज़ार का समय सबसे अहम है. साथ ही, जहां ज़्यादा जानकारी की ज़रूरत नहीं है.medium/high: जब टास्क के लिए, मीडिया में मौजूद जटिल जानकारी को समझने की ज़रूरत हो, तब रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर, जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या ज़्यादा जानकारी वाले दस्तावेज़ को समझने के लिए होती है.ultra_high- यह सेटिंग सिर्फ़ हर कॉन्टेंट आइटम के लिए उपलब्ध है. इसका इस्तेमाल, खास इस्तेमाल के उदाहरणों के लिए किया जाता है. जैसे, कंप्यूटर का इस्तेमाल. इसके अलावा, इसका इस्तेमाल तब किया जाता है, जब टेस्टिंग से पता चलता है किhighके मुकाबले, इससे बेहतर नतीजे मिलते हैं.- हर कॉन्टेंट आइटम के लिए कंट्रोल (Gemini 3): इससे टोकन के इस्तेमाल को ऑप्टिमाइज़ किया जाता है. उदाहरण के लिए, एक ऐसे प्रॉम्प्ट में जिसमें कई इमेज हैं, किसी जटिल डायग्राम के लिए
highऔर सामान्य कॉन्टेक्चुअल इमेज के लिएlowयाmediumका इस्तेमाल करें.
सुझाई गई सेटिंग
यहां, मीडिया के हर टाइप के लिए, मीडिया रिज़ॉल्यूशन की सुझाई गई सेटिंग दी गई हैं.
| मीडिया किस तरह का है | सुझाई गई सेटिंग | ज़्यादा से ज़्यादा टोकन | इस्तेमाल के लिए दिशा-निर्देश |
|---|---|---|---|
| इमेज | high |
1120 | इमेज के विश्लेषण से जुड़े ज़्यादातर टास्क के लिए, इस सेटिंग का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके. |
medium |
560 | यह सेटिंग, दस्तावेज़ को समझने के लिए सबसे अच्छी है. आम तौर पर, medium सेटिंग पर क्वालिटी सबसे अच्छी होती है. आम तौर पर, सामान्य दस्तावेज़ों के लिए, high सेटिंग का इस्तेमाल करने से ओसीआर के नतीजों में कोई सुधार नहीं होता. |
|
| वीडियो (सामान्य) | low (या medium) |
70 (हर फ़्रेम के लिए) | ध्यान दें: वीडियो के लिए, low और medium सेटिंग को एक जैसा (70 टोकन) माना जाता है, ताकि कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ किया जा सके. यह सेटिंग, ऐक्शन की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है. |
| वीडियो (जिसमें ज़्यादा टेक्स्ट हो) | high |
280 (हर फ़्रेम के लिए) | इस सेटिंग का इस्तेमाल सिर्फ़ तब किया जाता है, जब इस्तेमाल के उदाहरण में, वीडियो फ़्रेम में मौजूद ज़्यादा टेक्स्ट (ओसीआर) या छोटी-छोटी जानकारी को पढ़ने की ज़रूरत हो. |
क्वालिटी, इंतज़ार के समय, और लागत के बीच सबसे अच्छा बैलेंस पाने के लिए, अपने ऐप्लिकेशन पर अलग-अलग रिज़ॉल्यूशन सेटिंग की परफ़ॉर्मेंस की जांच और आकलन करें.
वर्शन के साथ काम करने की सुविधा की खास जानकारी
- कॉन्टेंट के अलग-अलग आइटम के लिए
resolutionसेट करने की सुविधा सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.
अगले चरण
- Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानने के लिए, इमेज को समझने, वीडियो को समझने, और दस्तावेज़ को समझने से जुड़ी गाइड पढ़ें.