इस पेज का अनुवाद Cloud Translation API से किया गया है.

मीडिया का रिज़ॉल्यूशन

media_resolution पैरामीटर यह कंट्रोल करता है कि Gemini API, इमेज, वीडियो, और PDF दस्तावेज़ जैसे मीडिया इनपुट को कैसे प्रोसेस करता है. इसके लिए, यह तय किया जाता है कि मीडिया इनपुट के लिए ज़्यादा से ज़्यादा कितने टोकन असाइन किए गए हैं. इससे, आपको जवाब की क्वालिटी, लेटेन्सी, और लागत के बीच संतुलन बनाए रखने में मदद मिलती है. अलग-अलग सेटिंग, डिफ़ॉल्ट वैल्यू, और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए टोकन की संख्या सेक्शन देखें.

मीडिया रिज़ॉल्यूशन को दो तरीकों से कॉन्फ़िगर किया जा सकता है:

हर हिस्से के लिए (सिर्फ़ Gemini 3 के लिए)
पूरी generateContent क्वेरी (टेक्स्ट, इमेज, और वीडियो वगैरह का इस्तेमाल करके की गई सभी क्वेरी) के लिए, दुनिया भर में

हर हिस्से के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3 के लिए)

Gemini 3 की मदद से, अनुरोध में शामिल हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्स्ट वाली इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना. यह सेटिंग, किसी खास हिस्से के लिए ग्लोबल कॉन्फ़िगरेशन को बदल देती है. डिफ़ॉल्ट सेटिंग के लिए, टोकन की संख्या सेक्शन देखें.

Python

from google import genai
from google.genai import types

# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
  http_options={
      'api_version': 'v1alpha',
  }
)

# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
    image_bytes_1 = f.read()

# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
    data=image_bytes_1,
    mime_type='image/jpeg',
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

model_name = 'gemini-3-pro-preview'

response = client.models.generate_content(
    model=model_name,
    contents=["Describe these images:", image_part_high]
)
print(response.text)

JavaScript

// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js

const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });

// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
    return {
        inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
        mediaResolution: { 'level': mediaResolution }
    };
}

async function run() {
    // Create parts with different resolutions
    const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
    const model_name = 'gemini-3-pro-preview';
    const response = await ai.models.generateContent({
        model: model_name,
        contents: ['Describe these images:', imagePartHigh]
        // Global config can still be set, but per-part settings will override
        // config: {
        //   mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
        // }
    });
    console.log(response.text);
}
run();

REST

# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"

# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")

MODEL_ID="gemini-3-pro-preview"

echo '{
    "contents": [{
      "parts": [
        {"text": "Describe these images:"},
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "'"$BASE64_IMAGE1"'",
          },
          "media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
        }
      ]
    }]
  }' > request.json

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d @request.json

ग्लोबल मीडिया रिज़ॉल्यूशन

GenerationConfig का इस्तेमाल करके, अनुरोध में मौजूद सभी मीडिया पार्ट के लिए डिफ़ॉल्ट रिज़ॉल्यूशन सेट किया जा सकता है. यह सुविधा, सभी मल्टीमॉडल मॉडल के साथ काम करती है. अगर किसी अनुरोध में ग्लोबल और हर हिस्से के लिए सेटिंग, दोनों शामिल हैं, तो उस आइटम के लिए हर हिस्से के लिए सेटिंग को प्राथमिकता दी जाती है.

Python

from google import genai
from google.genai import types

client = genai.Client()

# Prepare standard image part
with open('image.jpg', 'rb') as f:
    image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')

# Set global configuration
config = types.GenerateContentConfig(
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=["Describe this image:", image_part],
    config=config
)
print(response.text)

JavaScript

import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';

const ai = new GoogleGenAI({ });

async function run() {
   // ... (Image loading logic) ...

   const response = await ai.models.generateContent({
      model: 'gemini-2.5-flash',
      contents: ["Describe this image:", imagePart],
      config: {
         mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
      }
   });
   console.log(response.text);
}
run();

REST

# ... (Base64 encoding logic) ...

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [...],
    "generation_config": {
      "media_resolution": "MEDIA_RESOLUTION_HIGH"
    }
  }'

उपलब्ध रिज़ॉल्यूशन वैल्यू

Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:

MEDIA_RESOLUTION_UNSPECIFIED: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पिछले मॉडल के बीच काफ़ी अलग-अलग होती है.
MEDIA_RESOLUTION_LOW: इसमें टोकन की संख्या कम होती है. इसलिए, यह तेज़ी से प्रोसेस होता है और इसकी लागत भी कम होती है. हालांकि, इसमें जानकारी कम होती है.
MEDIA_RESOLUTION_MEDIUM: इसमें बारीकी से जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.
MEDIA_RESOLUTION_HIGH: इसमें ज़्यादा टोकन होते हैं. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इससे लेटेन्सी और लागत बढ़ जाती है.
MEDIA_RESOLUTION_ULTRA_HIGH (सिर्फ़ हर हिस्से के लिए): सबसे ज़्यादा टोकन की संख्या. इसका इस्तेमाल कुछ खास मामलों में किया जाता है. जैसे, कंप्यूटर का इस्तेमाल.

ध्यान दें कि MEDIA_RESOLUTION_HIGH, ज़्यादातर इस्तेमाल के मामलों में सबसे अच्छी परफ़ॉर्मेंस देता है.

इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया टाइप (इमेज, वीडियो, PDF) और मॉडल वर्शन, दोनों पर निर्भर करती है.

टोकन की संख्या

यहां दी गई टेबल में, हर मॉडल फ़ैमिली के लिए, हर media_resolution वैल्यू और मीडिया टाइप के लिए टोकन की अनुमानित संख्या की खास जानकारी दी गई है.

Gemini 3 के मॉडल

MediaResolution	इमेज	वीडियो	PDF
`MEDIA_RESOLUTION_UNSPECIFIED` (डिफ़ॉल्ट)	1120	70	560
`MEDIA_RESOLUTION_LOW`	280	70	280 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_MEDIUM`	560	70	560 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_HIGH`	1120	280	1120 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_ULTRA_HIGH`	2240	लागू नहीं	लागू नहीं

Gemini 2.5 मॉडल

MediaResolution	इमेज	वीडियो	PDF (स्कैन किया गया)	PDF (नेटिव)
`MEDIA_RESOLUTION_UNSPECIFIED` (डिफ़ॉल्ट)	256 + पैन और स्कैन (~2048)	256	256 + ओसीआर	256 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_LOW`	64	64	64 + ओसीआर	64 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_MEDIUM`	256	256	256 + ओसीआर	256 + नेटिव टेक्स्ट
`MEDIA_RESOLUTION_HIGH`	256 + पैन और स्कैन	256	256 + ओसीआर	256 + नेटिव टेक्स्ट

सही रिज़ॉल्यूशन चुनना

डिफ़ॉल्ट (UNSPECIFIED): डिफ़ॉल्ट से शुरू करें. इसे आम तौर पर इस्तेमाल होने वाले मामलों में, क्वालिटी, स्पीड, और कीमत के हिसाब से बेहतर बनाया गया है.
LOW: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम होता है. साथ ही, जहाँ ज़्यादा जानकारी की ज़रूरत नहीं होती.
MEDIUM / HIGH: अगर टास्क में मीडिया की जटिल जानकारी को समझना ज़रूरी है, तो रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या बड़े दस्तावेज़ को समझने के लिए होती है.
ULTRA HIGH - यह सिर्फ़ हर हिस्से के लिए सेटिंग के तौर पर उपलब्ध है. इसका सुझाव कुछ खास मामलों में दिया जाता है. जैसे, कंप्यूटर का इस्तेमाल करने या जहां टेस्टिंग से पता चलता है कि HIGH की तुलना में यह बेहतर है.
हर हिस्से के हिसाब से कंट्रोल (Gemini 3): इससे टोकन का इस्तेमाल ऑप्टिमाइज़ होता है. उदाहरण के लिए, कई इमेज वाले किसी प्रॉम्प्ट में, जटिल डायग्राम के लिए HIGH का इस्तेमाल करें. वहीं, कॉन्टेक्स्ट के हिसाब से आसान इमेज के लिए LOW या MEDIUM का इस्तेमाल करें.

सुझाई गई सेटिंग

यहां दी गई सूची में, हर मीडिया टाइप के लिए सुझाए गए मीडिया रिज़ॉल्यूशन की सेटिंग दी गई हैं.

मीडिया टाइप	सुझाई गई सेटिंग	ज़्यादा से ज़्यादा टोकन	इस्तेमाल करने के लिए दिशा-निर्देश
इमेज	`MEDIA_RESOLUTION_HIGH`	1120	ज़्यादातर इमेज विश्लेषण के टास्क के लिए, इस विकल्प का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके.
PDF	`MEDIA_RESOLUTION_MEDIUM`	560	दस्तावेज़ को समझने के लिए सबसे सही; क्वालिटी आम तौर पर `medium` पर पहुंच जाती है. `high` बढ़ाने से, स्टैंडर्ड दस्तावेज़ों के लिए ओसीआर के नतीजों में शायद ही कभी सुधार होता है.
वीडियो (सामान्य)	`MEDIA_RESOLUTION_LOW` (या `MEDIA_RESOLUTION_MEDIUM`)	70 (हर फ़्रेम के लिए)	ध्यान दें: वीडियो के लिए, कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, `low` और `medium` सेटिंग को एक जैसा (70 टोकन) माना जाता है. यह कार्रवाई की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है.
वीडियो (इसमें ज़्यादातर टेक्स्ट होता है)	`MEDIA_RESOLUTION_HIGH`	280 (हर फ़्रेम के लिए)	इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में टेक्स्ट को पढ़ना (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी चीज़ों को पढ़ना शामिल हो.

क्वालिटी, इंतज़ार का समय, और लागत के बीच सबसे सही संतुलन पाने के लिए, अपने ऐप्लिकेशन पर अलग-अलग रिज़ॉल्यूशन सेटिंग के असर का हमेशा टेस्ट और आकलन करें.

वर्शन के साथ काम करने की सुविधा के बारे में खास जानकारी

MediaResolution enum, मीडिया इनपुट की सुविधा के साथ काम करने वाले सभी मॉडल के लिए उपलब्ध है.
Gemini 3 मॉडल और Gemini के पुराने वर्शन के बीच, हर एनम लेवल से जुड़े टोकन की संख्या अलग-अलग होती है.
अलग-अलग Part ऑब्जेक्ट पर media_resolution सेट करने की सुविधा, सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.

अगले चरण

इमेज समझने, वीडियो समझने, और दस्तावेज़ समझने से जुड़ी गाइड में, Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानें.