मीडिया का रिज़ॉल्यूशन

media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, इमेज, वीडियो, और PDF दस्तावेज़ जैसे मीडिया इनपुट को कैसे प्रोसेस करे. इसके लिए, यह तय किया जाता है कि मीडिया इनपुट के लिए ज़्यादा से ज़्यादा कितने टोकन असाइन किए जाएं. इससे, आपको जवाब की क्वालिटी, लेटेन्सी, और लागत के बीच संतुलन बनाए रखने में मदद मिलती है. अलग-अलग सेटिंग, डिफ़ॉल्ट वैल्यू, और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए टोकन की संख्या सेक्शन देखें.

मीडिया रिज़ॉल्यूशन को दो तरीकों से कॉन्फ़िगर किया जा सकता है:

हर हिस्से के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3 के लिए)

Gemini 3 की मदद से, अनुरोध में मौजूद हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्स्ट वाली इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना. यह सेटिंग, किसी खास हिस्से के लिए ग्लोबल कॉन्फ़िगरेशन को बदल देती है. डिफ़ॉल्ट सेटिंग के लिए, टोकन की संख्या सेक्शन देखें.

Python

from google import genai
from google.genai import types

# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
  http_options={
      'api_version': 'v1alpha',
  }
)

# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
    image_bytes_1 = f.read()

# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
    data=image_bytes_1,
    mime_type='image/jpeg',
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

model_name = 'gemini-3-pro-preview'

response = client.models.generate_content(
    model=model_name,
    contents=["Describe these images:", image_part_high]
)
print(response.text)

JavaScript

// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js

const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });

// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
    return {
        inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
        mediaResolution: { 'level': mediaResolution }
    };
}

async function run() {
    // Create parts with different resolutions
    const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
    const model_name = 'gemini-3-pro-preview';
    const response = await ai.models.generateContent({
        model: model_name,
        contents: ['Describe these images:', imagePartHigh]
        // Global config can still be set, but per-part settings will override
        // config: {
        //   mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
        // }
    });
    console.log(response.text);
}
run();

REST

# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"

# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")

MODEL_ID="gemini-3-pro-preview"

echo '{
    "contents": [{
      "parts": [
        {"text": "Describe these images:"},
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "'"$BASE64_IMAGE1"'",
          },
          "media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
        }
      ]
    }]
  }' > request.json

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d @request.json

ग्लोबल मीडिया रिज़ॉल्यूशन

GenerationConfig का इस्तेमाल करके, अनुरोध में मौजूद सभी मीडिया पार्ट के लिए डिफ़ॉल्ट रिज़ॉल्यूशन सेट किया जा सकता है. यह सुविधा, सभी मल्टीमॉडल मॉडल के साथ काम करती है. अगर किसी अनुरोध में ग्लोबल और हर हिस्से के लिए सेटिंग, दोनों शामिल हैं, तो उस आइटम के लिए हर हिस्से के लिए सेटिंग को प्राथमिकता दी जाती है.

Python

from google import genai
from google.genai import types

client = genai.Client()

# Prepare standard image part
with open('image.jpg', 'rb') as f:
    image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')

# Set global configuration
config = types.GenerateContentConfig(
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=["Describe this image:", image_part],
    config=config
)
print(response.text)

JavaScript

import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';

const ai = new GoogleGenAI({ });

async function run() {
   // ... (Image loading logic) ...

   const response = await ai.models.generateContent({
      model: 'gemini-2.5-flash',
      contents: ["Describe this image:", imagePart],
      config: {
         mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
      }
   });
   console.log(response.text);
}
run();

REST

# ... (Base64 encoding logic) ...

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [...],
    "generation_config": {
      "media_resolution": "MEDIA_RESOLUTION_HIGH"
    }
  }'

उपलब्ध रिज़ॉल्यूशन वैल्यू

Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:

  • MEDIA_RESOLUTION_UNSPECIFIED: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पिछले मॉडल के बीच काफ़ी अलग-अलग होती है.
  • MEDIA_RESOLUTION_LOW: इसमें टोकन की संख्या कम होती है. इसलिए, प्रोसेसिंग तेज़ी से होती है और लागत भी कम होती है. हालांकि, इसमें जानकारी कम होती है.
  • MEDIA_RESOLUTION_MEDIUM: इसमें जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.
  • MEDIA_RESOLUTION_HIGH: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इससे लेटेन्सी और लागत बढ़ जाती है.
  • (जल्द ही उपलब्ध होगा) MEDIA_RESOLUTION_ULTRA_HIGH: कंप्यूटर इस्तेमाल करने जैसे खास मामलों के लिए, सबसे ज़्यादा टोकन की ज़रूरत होती है.

इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया टाइप (इमेज, वीडियो, PDF) और मॉडल वर्शन, दोनों पर निर्भर करती है.

टोकन की संख्या

यहां दी गई टेबल में, हर मॉडल फ़ैमिली के लिए, हर media_resolution वैल्यू और मीडिया टाइप के हिसाब से टोकन की अनुमानित संख्या की खास जानकारी दी गई है.

Gemini 3 के मॉडल

MediaResolution इमेज वीडियो PDF
MEDIA_RESOLUTION_UNSPECIFIED (डिफ़ॉल्ट) 1120 70 560
MEDIA_RESOLUTION_LOW 280 70 280 + नेटिव टेक्स्ट
MEDIA_RESOLUTION_MEDIUM 560 70 560 + नेटिव टेक्स्ट
MEDIA_RESOLUTION_HIGH 1120 280 1120 + नेटिव टेक्स्ट

Gemini 2.5 मॉडल

MediaResolution इमेज वीडियो PDF (स्कैन किया गया) PDF (नेटिव)
MEDIA_RESOLUTION_UNSPECIFIED (डिफ़ॉल्ट) 256 + पैन और स्कैन (~2048) 256 256 + ओसीआर 256 + नेटिव टेक्स्ट
MEDIA_RESOLUTION_LOW 64 64 64 + ओसीआर 64 + नेटिव टेक्स्ट
MEDIA_RESOLUTION_MEDIUM 256 256 256 + ओसीआर 256 + नेटिव टेक्स्ट
MEDIA_RESOLUTION_HIGH 256 + पैन और स्कैन 256 256 + ओसीआर 256 + नेटिव टेक्स्ट

सही रिज़ॉल्यूशन चुनना

  • डिफ़ॉल्ट (UNSPECIFIED): डिफ़ॉल्ट से शुरू करें. इसे आम तौर पर इस्तेमाल किए जाने वाले मामलों में, क्वालिटी, स्पीड, और कीमत के हिसाब से बेहतर बनाया गया है.
  • LOW: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम होता है. साथ ही, जहां ज़्यादा जानकारी की ज़रूरत नहीं होती.
  • MEDIUM / HIGH: अगर टास्क में मीडिया की बारीकी से जानकारी समझना ज़रूरी है, तो रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या बड़े दस्तावेज़ को समझने के लिए होती है.
  • हर हिस्से के हिसाब से कंट्रोल करना (Gemini 3): टोकन के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, इस सुविधा का इस्तेमाल करें. उदाहरण के लिए, कई इमेज वाले किसी प्रॉम्प्ट में, जटिल डायग्राम के लिए HIGH का इस्तेमाल करें. वहीं, कॉन्टेक्स्ट के हिसाब से आसान इमेज के लिए LOW या MEDIUM का इस्तेमाल करें.

सुझाई गई सेटिंग

यहां दी गई सूची में, हर मीडिया टाइप के लिए सुझाए गए मीडिया रिज़ॉल्यूशन की सेटिंग दी गई हैं.

मीडिया टाइप सुझाई गई सेटिंग ज़्यादा से ज़्यादा टोकन इस्तेमाल करने के लिए दिशा-निर्देश
इमेज MEDIA_RESOLUTION_HIGH 1120 ज़्यादातर इमेज विश्लेषण के टास्क के लिए, इस विकल्प का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके.
PDF MEDIA_RESOLUTION_MEDIUM 560 दस्तावेज़ को समझने के लिए सबसे सही; क्वालिटी आम तौर पर medium पर पहुंच जाती है. high बढ़ाने से, स्टैंडर्ड दस्तावेज़ों के लिए ओसीआर के नतीजों में शायद ही कभी सुधार होता है.
वीडियो (सामान्य) MEDIA_RESOLUTION_LOW (या MEDIA_RESOLUTION_MEDIUM) 70 (हर फ़्रेम के लिए) ध्यान दें: वीडियो के लिए, कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, low और medium सेटिंग को एक जैसा (70 टोकन) माना जाता है. यह कार्रवाई की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है.
वीडियो (इसमें ज़्यादातर टेक्स्ट होता है) MEDIA_RESOLUTION_HIGH 280 (हर फ़्रेम के लिए) इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में टेक्स्ट को पढ़ना (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी चीज़ों को पढ़ना शामिल हो.

हमेशा अलग-अलग रिज़ॉल्यूशन सेटिंग का इस्तेमाल करके, अपने ऐप्लिकेशन पर उनके असर का आकलन करें. इससे आपको क्वालिटी, इंतज़ार का समय, और लागत के बीच सबसे सही समझौता करने में मदद मिलेगी.

वर्शन के साथ काम करने की सुविधा के बारे में खास जानकारी

  • MediaResolution enum, मीडिया इनपुट की सुविधा देने वाले सभी मॉडल के लिए उपलब्ध है.
  • Gemini 3 मॉडल और Gemini के पुराने वर्शन के बीच, हर enum लेवल से जुड़े टोकन की संख्या अलग-अलग होती है.
  • अलग-अलग Part ऑब्जेक्ट पर media_resolution सेट करने की सुविधा, सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.

अगले चरण