media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, इमेज, वीडियो, और PDF दस्तावेज़ जैसे मीडिया इनपुट को कैसे प्रोसेस करे. इसके लिए, यह तय किया जाता है कि मीडिया इनपुट के लिए ज़्यादा से ज़्यादा कितने टोकन असाइन किए जाएं. इससे, आपको जवाब की क्वालिटी, लेटेन्सी, और लागत के बीच संतुलन बनाए रखने में मदद मिलती है. अलग-अलग सेटिंग, डिफ़ॉल्ट वैल्यू, और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए टोकन की संख्या सेक्शन देखें.
मीडिया रिज़ॉल्यूशन को दो तरीकों से कॉन्फ़िगर किया जा सकता है:
हर हिस्से के लिए (सिर्फ़ Gemini 3 के लिए)
पूरी
generateContentक्वेरी (टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई सभी क्वेरी) के लिए, दुनिया भर में
हर हिस्से के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3 के लिए)
Gemini 3 की मदद से, अनुरोध में मौजूद हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्स्ट वाली इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना. यह सेटिंग, किसी खास हिस्से के लिए ग्लोबल कॉन्फ़िगरेशन को बदल देती है. डिफ़ॉल्ट सेटिंग के लिए, टोकन की संख्या सेक्शन देखें.
Python
from google import genai
from google.genai import types
# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
http_options={
'api_version': 'v1alpha',
}
)
# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
image_bytes_1 = f.read()
# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
data=image_bytes_1,
mime_type='image/jpeg',
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
model_name = 'gemini-3-pro-preview'
response = client.models.generate_content(
model=model_name,
contents=["Describe these images:", image_part_high]
)
print(response.text)
JavaScript
// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js
const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });
// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
return {
inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
mediaResolution: { 'level': mediaResolution }
};
}
async function run() {
// Create parts with different resolutions
const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
const model_name = 'gemini-3-pro-preview';
const response = await ai.models.generateContent({
model: model_name,
contents: ['Describe these images:', imagePartHigh]
// Global config can still be set, but per-part settings will override
// config: {
// mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
// }
});
console.log(response.text);
}
run();
REST
# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"
# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")
MODEL_ID="gemini-3-pro-preview"
echo '{
"contents": [{
"parts": [
{"text": "Describe these images:"},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "'"$BASE64_IMAGE1"'",
},
"media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
}
]
}]
}' > request.json
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d @request.json
ग्लोबल मीडिया रिज़ॉल्यूशन
GenerationConfig का इस्तेमाल करके, अनुरोध में मौजूद सभी मीडिया पार्ट के लिए डिफ़ॉल्ट रिज़ॉल्यूशन सेट किया जा सकता है. यह सुविधा, सभी मल्टीमॉडल मॉडल के साथ काम करती है. अगर किसी अनुरोध में ग्लोबल और हर हिस्से के लिए सेटिंग, दोनों शामिल हैं, तो उस आइटम के लिए हर हिस्से के लिए सेटिंग को प्राथमिकता दी जाती है.
Python
from google import genai
from google.genai import types
client = genai.Client()
# Prepare standard image part
with open('image.jpg', 'rb') as f:
image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')
# Set global configuration
config = types.GenerateContentConfig(
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
response = client.models.generate_content(
model='gemini-2.5-flash',
contents=["Describe this image:", image_part],
config=config
)
print(response.text)
JavaScript
import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';
const ai = new GoogleGenAI({ });
async function run() {
// ... (Image loading logic) ...
const response = await ai.models.generateContent({
model: 'gemini-2.5-flash',
contents: ["Describe this image:", imagePart],
config: {
mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
}
});
console.log(response.text);
}
run();
REST
# ... (Base64 encoding logic) ...
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [...],
"generation_config": {
"media_resolution": "MEDIA_RESOLUTION_HIGH"
}
}'
उपलब्ध रिज़ॉल्यूशन वैल्यू
Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:
MEDIA_RESOLUTION_UNSPECIFIED: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पिछले मॉडल के बीच काफ़ी अलग-अलग होती है.MEDIA_RESOLUTION_LOW: इसमें टोकन की संख्या कम होती है. इसलिए, प्रोसेसिंग तेज़ी से होती है और लागत भी कम होती है. हालांकि, इसमें जानकारी कम होती है.MEDIA_RESOLUTION_MEDIUM: इसमें जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.MEDIA_RESOLUTION_HIGH: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इससे लेटेन्सी और लागत बढ़ जाती है.- (जल्द ही उपलब्ध होगा)
MEDIA_RESOLUTION_ULTRA_HIGH: कंप्यूटर इस्तेमाल करने जैसे खास मामलों के लिए, सबसे ज़्यादा टोकन की ज़रूरत होती है.
इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया टाइप (इमेज, वीडियो, PDF) और मॉडल वर्शन, दोनों पर निर्भर करती है.
टोकन की संख्या
यहां दी गई टेबल में, हर मॉडल फ़ैमिली के लिए, हर media_resolution वैल्यू और मीडिया टाइप के हिसाब से टोकन की अनुमानित संख्या की खास जानकारी दी गई है.
Gemini 3 के मॉडल
| MediaResolution | इमेज | वीडियो | |
MEDIA_RESOLUTION_UNSPECIFIED (डिफ़ॉल्ट)
|
1120 | 70 | 560 |
MEDIA_RESOLUTION_LOW
|
280 | 70 | 280 + नेटिव टेक्स्ट |
MEDIA_RESOLUTION_MEDIUM
|
560 | 70 | 560 + नेटिव टेक्स्ट |
MEDIA_RESOLUTION_HIGH
|
1120 | 280 | 1120 + नेटिव टेक्स्ट |
Gemini 2.5 मॉडल
| MediaResolution | इमेज | वीडियो | PDF (स्कैन किया गया) | PDF (नेटिव) |
MEDIA_RESOLUTION_UNSPECIFIED (डिफ़ॉल्ट)
|
256 + पैन और स्कैन (~2048) | 256 | 256 + ओसीआर | 256 + नेटिव टेक्स्ट |
MEDIA_RESOLUTION_LOW
|
64 | 64 | 64 + ओसीआर | 64 + नेटिव टेक्स्ट |
MEDIA_RESOLUTION_MEDIUM
|
256 | 256 | 256 + ओसीआर | 256 + नेटिव टेक्स्ट |
MEDIA_RESOLUTION_HIGH
|
256 + पैन और स्कैन | 256 | 256 + ओसीआर | 256 + नेटिव टेक्स्ट |
सही रिज़ॉल्यूशन चुनना
- डिफ़ॉल्ट (
UNSPECIFIED): डिफ़ॉल्ट से शुरू करें. इसे आम तौर पर इस्तेमाल किए जाने वाले मामलों में, क्वालिटी, स्पीड, और कीमत के हिसाब से बेहतर बनाया गया है. LOW: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम होता है. साथ ही, जहां ज़्यादा जानकारी की ज़रूरत नहीं होती.MEDIUM/HIGH: अगर टास्क में मीडिया की बारीकी से जानकारी समझना ज़रूरी है, तो रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या बड़े दस्तावेज़ को समझने के लिए होती है.- हर हिस्से के हिसाब से कंट्रोल करना (Gemini 3): टोकन के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, इस सुविधा का इस्तेमाल करें. उदाहरण के लिए, कई इमेज वाले किसी प्रॉम्प्ट में, जटिल डायग्राम के लिए
HIGHका इस्तेमाल करें. वहीं, कॉन्टेक्स्ट के हिसाब से आसान इमेज के लिएLOWयाMEDIUMका इस्तेमाल करें.
सुझाई गई सेटिंग
यहां दी गई सूची में, हर मीडिया टाइप के लिए सुझाए गए मीडिया रिज़ॉल्यूशन की सेटिंग दी गई हैं.
| मीडिया टाइप | सुझाई गई सेटिंग | ज़्यादा से ज़्यादा टोकन | इस्तेमाल करने के लिए दिशा-निर्देश |
| इमेज | MEDIA_RESOLUTION_HIGH
|
1120 | ज़्यादातर इमेज विश्लेषण के टास्क के लिए, इस विकल्प का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके. |
MEDIA_RESOLUTION_MEDIUM
|
560 | दस्तावेज़ को समझने के लिए सबसे सही; क्वालिटी आम तौर पर medium पर पहुंच जाती है. high बढ़ाने से, स्टैंडर्ड दस्तावेज़ों के लिए ओसीआर के नतीजों में शायद ही कभी सुधार होता है.
|
|
| वीडियो (सामान्य) | MEDIA_RESOLUTION_LOW (या MEDIA_RESOLUTION_MEDIUM)
|
70 (हर फ़्रेम के लिए) | ध्यान दें: वीडियो के लिए, कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, low और medium सेटिंग को एक जैसा (70 टोकन) माना जाता है. यह कार्रवाई की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है.
|
| वीडियो (इसमें ज़्यादातर टेक्स्ट होता है) | MEDIA_RESOLUTION_HIGH
|
280 (हर फ़्रेम के लिए) | इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में टेक्स्ट को पढ़ना (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी चीज़ों को पढ़ना शामिल हो. |
हमेशा अलग-अलग रिज़ॉल्यूशन सेटिंग का इस्तेमाल करके, अपने ऐप्लिकेशन पर उनके असर का आकलन करें. इससे आपको क्वालिटी, इंतज़ार का समय, और लागत के बीच सबसे सही समझौता करने में मदद मिलेगी.
वर्शन के साथ काम करने की सुविधा के बारे में खास जानकारी
MediaResolutionenum, मीडिया इनपुट की सुविधा देने वाले सभी मॉडल के लिए उपलब्ध है.- Gemini 3 मॉडल और Gemini के पुराने वर्शन के बीच, हर enum लेवल से जुड़े टोकन की संख्या अलग-अलग होती है.
- अलग-अलग
Partऑब्जेक्ट परmedia_resolutionसेट करने की सुविधा, सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.
अगले चरण
- इमेज समझने, वीडियो समझने, और दस्तावेज़ समझने से जुड़ी गाइड में, Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानें.