Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

मीडिया का रिज़ॉल्यूशन

media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, मीडिया इनपुट को कैसे प्रोसेस करता है. जैसे, इमेज, वीडियो, और PDF दस्तावेज़. इसके लिए, यह पैरामीटर मीडिया इनपुट के लिए टोकन की ज़्यादा से ज़्यादा संख्या तय करता है. इससे, रिस्पॉन्स की क्वालिटी, इंतज़ार का समय, और लागत के बीच बैलेंस बनाया जा सकता है. अलग-अलग सेटिंग के लिए, डिफ़ॉल्ट वैल्यू और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए, टोकन की संख्या वाला सेक्शन देखें.

मीडिया रिज़ॉल्यूशन को दो तरीकों से कॉन्फ़िगर किया जा सकता है:

हर हिस्से के लिए (सिर्फ़ Gemini 3)
ग्लोबल तौर पर पूरे generateContent अनुरोध के लिए (सभी मल्टीमॉडल मॉडल)

हर हिस्से के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3)

Gemini 3 की मदद से, अनुरोध में शामिल हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे, टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्चुअल इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल किया जा सकता है. यह सेटिंग, किसी खास हिस्से के लिए ग्लोबल कॉन्फ़िगरेशन को ओवरराइड करती है. डिफ़ॉल्ट सेटिंग के लिए, टोकन की संख्या वाला सेक्शन देखें.

Python

from google import genai
from google.genai import types

# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
  http_options={
      'api_version': 'v1alpha',
  }
)

# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
    image_bytes_1 = f.read()

# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
    data=image_bytes_1,
    mime_type='image/jpeg',
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

model_name = 'gemini-3.1-pro-preview'

response = client.models.generate_content(
    model=model_name,
    contents=["Describe these images:", image_part_high]
)
print(response.text)

JavaScript

// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js

const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });

// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
    return {
        inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
        mediaResolution: { 'level': mediaResolution }
    };
}

async function run() {
    // Create parts with different resolutions
    const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
    const model_name = 'gemini-3.1-pro-preview';
    const response = await ai.models.generateContent({
        model: model_name,
        contents: ['Describe these images:', imagePartHigh]
        // Global config can still be set, but per-part settings will override
        // config: {
        //   mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
        // }
    });
    console.log(response.text);
}
run();

REST

# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"

# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")

MODEL_ID="gemini-3.1-pro-preview"

echo '{
    "contents": [{
      "parts": [
        {"text": "Describe these images:"},
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "'"$BASE64_IMAGE1"'",
          },
          "media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
        }
      ]
    }]
  }' > request.json

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d @request.json

ग्लोबल मीडिया रिज़ॉल्यूशन

GenerationConfig का इस्तेमाल करके, अनुरोध में शामिल सभी मीडिया के हिस्सों के लिए डिफ़ॉल्ट रिज़ॉल्यूशन सेट किया जा सकता है. यह सुविधा, सभी मल्टीमॉडल मॉडल के साथ काम करती है. अगर किसी अनुरोध में ग्लोबल और हर हिस्से के लिए, दोनों तरह की सेटिंग शामिल हैं, तो उस खास आइटम के लिए, हर हिस्से के लिए सेट की गई सेटिंग को प्राथमिकता दी जाती है.

Python

from google import genai
from google.genai import types

client = genai.Client()

# Prepare standard image part
with open('image.jpg', 'rb') as f:
    image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')

# Set global configuration
config = types.GenerateContentConfig(
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

response = client.models.generate_content(
    model='gemini-3-flash-preview',
    contents=["Describe this image:", image_part],
    config=config
)
print(response.text)

JavaScript

import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';

const ai = new GoogleGenAI({ });

async function run() {
   // ... (Image loading logic) ...

   const response = await ai.models.generateContent({
      model: 'gemini-3-flash-preview',
      contents: ["Describe this image:", imagePart],
      config: {
         mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
      }
   });
   console.log(response.text);
}
run();

REST

# ... (Base64 encoding logic) ...

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [...],
    "generation_config": {
      "media_resolution": "MEDIA_RESOLUTION_HIGH"
    }
  }'

उपलब्ध रिज़ॉल्यूशन वैल्यू

Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:

MEDIA_RESOLUTION_UNSPECIFIED: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और उससे पहले के Gemini मॉडल के बीच काफ़ी अलग-अलग होती है.
MEDIA_RESOLUTION_LOW: इसमें टोकन की संख्या कम होती है. इससे, प्रोसेसिंग की स्पीड बढ़ती है और लागत कम होती है. हालांकि, इसमें कम जानकारी मिलती है.
MEDIA_RESOLUTION_MEDIUM: इसमें जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस बना रहता है.
MEDIA_RESOLUTION_HIGH: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इसमें इंतज़ार का समय और लागत बढ़ जाती है.
MEDIA_RESOLUTION_ULTRA_HIGH (सिर्फ़ हर हिस्से के लिए): इसमें टोकन की संख्या सबसे ज़्यादा होती है. यह खास इस्तेमाल के उदाहरणों के लिए ज़रूरी है, जैसे कंप्यूटर का इस्तेमाल.

ध्यान दें कि ज़्यादातर इस्तेमाल के उदाहरणों के लिए, MEDIA_RESOLUTION_HIGH सबसे अच्छी परफ़ॉर्मेंस देता है.

इनमें से हर लेवल के लिए जनरेट होने वाले टोकन की सटीक संख्या, मीडिया के टाइप (इमेज, वीडियो, PDF) और मॉडल के वर्शन, दोनों पर निर्भर करती है.

टोकन की संख्या

यहां दी गई टेबल में, मॉडल के हर फ़ैमिली के लिए, media_resolution की हर वैल्यू और मीडिया के टाइप के हिसाब से, टोकन की अनुमानित संख्या की खास जानकारी दी गई है.

Gemini 3 मॉडल

MediaResolution	इमेज	वीडियो	PDF
`MEDIA_RESOLUTION_UNSPECIFIED` (डिफ़ॉल्ट)	1120	70	560
`MEDIA_RESOLUTION_LOW`	280	70	280 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_MEDIUM`	560	70	560 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_HIGH`	1120	280	1120 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_ULTRA_HIGH`	2240	लागू नहीं	लागू नहीं

Gemini 2.5 मॉडल

MediaResolution	इमेज	वीडियो	PDF (स्कैन किया गया)	PDF (ओरिजनल)
`MEDIA_RESOLUTION_UNSPECIFIED` (डिफ़ॉल्ट)	256 + पैन और स्कैन (~2048)	256	256 + ओसीआर	256 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_LOW`	64	64	64 + ओसीआर	64 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_MEDIUM`	256	256	256 + ओसीआर	256 + ओरिजनल टेक्स्ट
`MEDIA_RESOLUTION_HIGH`	256 + पैन और स्कैन	256	256 + ओसीआर	256 + ओरिजनल टेक्स्ट

सही रिज़ॉल्यूशन चुनना

डिफ़ॉल्ट (UNSPECIFIED): डिफ़ॉल्ट सेटिंग से शुरू करें. इसे ज़्यादातर इस्तेमाल के उदाहरणों के लिए, क्वालिटी, इंतज़ार के समय, और लागत के बीच बेहतर बैलेंस बनाने के लिए ऑप्टिमाइज़ किया गया है.
LOW: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम हो और बारीक जानकारी कम ज़रूरी हो.
MEDIUM / HIGH: जब टास्क के लिए, मीडिया में मौजूद जटिल जानकारी को समझना ज़रूरी हो, तब रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर, जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या ज़्यादा जानकारी वाले दस्तावेज़ को समझने के लिए होती है.
ULTRA HIGH - यह सिर्फ़ हर हिस्से के लिए सेट की गई सेटिंग के लिए उपलब्ध है. इसका सुझाव, कंप्यूटर के इस्तेमाल जैसे खास इस्तेमाल के उदाहरणों के लिए दिया जाता है. साथ ही, उन स्थितियों में भी इसका सुझाव दिया जाता है जहां टेस्टिंग से पता चलता है कि HIGH के मुकाबले, इससे बेहतर नतीजे मिलते हैं.
हर हिस्से के लिए कंट्रोल (Gemini 3): इससे टोकन के इस्तेमाल को ऑप्टिमाइज़ किया जा सकता है. उदाहरण के लिए, कई इमेज वाले किसी प्रॉम्प्ट में, जटिल डायग्राम के लिए HIGH और सामान्य कॉन्टेक्चुअल इमेज के लिए LOW या MEDIUM का इस्तेमाल करें.

सुझाई गई सेटिंग

यहां, मीडिया के हर टाइप के लिए, मीडिया रिज़ॉल्यूशन की सुझाई गई सेटिंग दी गई हैं.

मीडिया का टाइप	सुझाई गई सेटिंग	ज़्यादा से ज़्यादा टोकन	इस्तेमाल करने के लिए दिशा-निर्देश
इमेज	`MEDIA_RESOLUTION_HIGH`	1120	ज़्यादातर इमेज के विश्लेषण वाले टास्क के लिए, इसका सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके.
PDF	`MEDIA_RESOLUTION_MEDIUM`	560	दस्तावेज़ को समझने के लिए, यह सबसे सही है. आम तौर पर, `medium` पर क्वालिटी सबसे अच्छी होती है. सामान्य दस्तावेज़ों के लिए, `high` पर ले जाने से ओसीआर के नतीजों में शायद ही कोई सुधार होता है.
वीडियो (सामान्य)	`MEDIA_RESOLUTION_LOW` (या `MEDIA_RESOLUTION_MEDIUM`)	70 (हर फ़्रेम के लिए)	ध्यान दें: वीडियो के लिए, `low` और `medium` सेटिंग को एक जैसा (70 टोकन) माना जाता है, ताकि कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ किया जा सके. यह, ज़्यादातर ऐक्शन की पहचान और जानकारी देने वाले टास्क के लिए काफ़ी है.
वीडियो (जिसमें ज़्यादा टेक्स्ट हो)	`MEDIA_RESOLUTION_HIGH`	280 (हर फ़्रेम के लिए)	इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में ज़्यादा टेक्स्ट (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी जानकारी को पढ़ना शामिल हो.

क्वालिटी, इंतज़ार के समय, और लागत के बीच सबसे अच्छा बैलेंस पाने के लिए, अपने ऐप्लिकेशन पर अलग-अलग रिज़ॉल्यूशन सेटिंग की जांच और आकलन करें.

वर्शन के साथ काम करने वाली सुविधाओं की खास जानकारी

MediaResolution enum, मीडिया इनपुट की सुविधा वाले सभी मॉडल के लिए उपलब्ध है.
Gemini 3 मॉडल और Gemini के पुराने वर्शन के लिए, enum के हर लेवल से जुड़े टोकन की संख्या अलग-अलग होती है.
Part के अलग-अलग ऑब्जेक्ट पर media_resolution सेट करने की सुविधा सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.

अगले चरण

Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानने के लिए, इमेज को समझने, वीडियो को समझने और दस्तावेज़ को समझने से जुड़ी गाइड पढ़ें.