Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

मीडिया रिज़ॉल्यूशन

ध्यान दें: इस पेज के वर्शन में, नए Interactions API के बारे में बताया गया है. यह फ़िलहाल बीटा वर्शन में है.
हमारा सुझाव है कि प्रोडक्शन में स्टेबल डिप्लॉयमेंट के लिए, generateContent API का इस्तेमाल जारी रखें. वर्शन के बीच स्विच करने के लिए, इस पेज पर मौजूद टॉगल का इस्तेमाल किया जा सकता है.

media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, इमेज, वीडियो, और PDF दस्तावेज़ जैसे मीडिया इनपुट को कैसे प्रोसेस करे. इसके लिए, यह तय किया जाता है कि मीडिया इनपुट के लिए ज़्यादा से ज़्यादा कितने टोकन असाइन किए जाएं. इससे, आपको जवाब की क्वालिटी, लेटेन्सी, और लागत के बीच संतुलन बनाए रखने में मदद मिलती है. अलग-अलग सेटिंग, डिफ़ॉल्ट वैल्यू, और वे टोकन से कैसे जुड़ी हैं, यह जानने के लिए टोकन की संख्या सेक्शन देखें.

आपके पास अपने अनुरोध में मौजूद हर मीडिया ऑब्जेक्ट (कॉन्टेंट आइटम) के लिए, मीडिया रिज़ॉल्यूशन कॉन्फ़िगर करने का विकल्प होता है. यह सुविधा सिर्फ़ Gemini 3 के लिए उपलब्ध है.

हर कॉन्टेंट आइटम के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3 के लिए)

Gemini 3 की मदद से, अनुरोध में शामिल हर मीडिया ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्स्ट वाली इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

उपलब्ध रिज़ॉल्यूशन वैल्यू

Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:

unspecified: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पिछले मॉडल के बीच काफ़ी अलग-अलग होती है.
low: इसमें टोकन की संख्या कम होती है. इसलिए, यह तेज़ी से प्रोसेस होता है और इसकी लागत भी कम होती है. हालांकि, इसमें कम जानकारी मिलती है.
medium: इसमें बारीकी से जानकारी देने, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.
high: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इससे लेटेन्सी और लागत बढ़ जाती है.
ultra_high (सिर्फ़ हर कॉन्टेंट आइटम के लिए): सबसे ज़्यादा टोकन की संख्या. यह कंप्यूटर के इस्तेमाल जैसे कुछ खास मामलों के लिए ज़रूरी है.

ध्यान दें कि high, ज़्यादातर इस्तेमाल के मामलों में सबसे अच्छी परफ़ॉर्मेंस देता है.

इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया टाइप (इमेज, वीडियो, PDF) और मॉडल वर्शन, दोनों पर निर्भर करती है.

टोकन की संख्या

यहां दी गई टेबल में, हर मॉडल फ़ैमिली के लिए, हर media_resolution वैल्यू और मीडिया टाइप के हिसाब से टोकन की अनुमानित संख्या की खास जानकारी दी गई है.

Gemini 3 के मॉडल

MediaResolution	इमेज	वीडियो	PDF
`unspecified` (डिफ़ॉल्ट)	1120	70	560
`low`	280	70	280 + नेटिव टेक्स्ट
`medium`	560	70	560 + नेटिव टेक्स्ट
`high`	1120	280	1120 + नेटिव टेक्स्ट
`ultra_high`	2240	लागू नहीं	लागू नहीं

सही रिज़ॉल्यूशन चुनना

डिफ़ॉल्ट (unspecified): डिफ़ॉल्ट से शुरू करें. इसे क्वालिटी, स्पीड, और कीमत के हिसाब से सबसे सही माना जाता है.
low: इसका इस्तेमाल उन स्थितियों में करें जहां लागत और इंतज़ार का समय सबसे अहम होता है. साथ ही, जहां ज़्यादा जानकारी देना ज़रूरी नहीं होता.
medium / high: जब टास्क में मीडिया की जटिल जानकारी को समझना ज़रूरी हो, तब रिज़ॉल्यूशन बढ़ाएं. आम तौर पर, इसकी ज़रूरत जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या बड़े दस्तावेज़ को समझने के लिए होती है.
ultra_high - यह सुविधा, कॉन्टेंट के हर आइटम के लिए सेटिंग में ही उपलब्ध है. इसका सुझाव कुछ खास मामलों में दिया जाता है. जैसे, कंप्यूटर का इस्तेमाल करने या जहां टेस्टिंग से पता चलता है कि high की तुलना में यह बेहतर है.
हर कॉन्टेंट आइटम के हिसाब से कंट्रोल (Gemini 3): इससे टोकन के इस्तेमाल को ऑप्टिमाइज़ किया जाता है. उदाहरण के लिए, कई इमेज वाले प्रॉम्प्ट में, जटिल डायग्राम के लिए high का इस्तेमाल करें. वहीं, कॉन्टेक्स्ट के हिसाब से आसान इमेज के लिए low या medium का इस्तेमाल करें.

सुझाई गई सेटिंग

यहां दी गई सूची में, हर मीडिया टाइप के लिए सुझाए गए मीडिया रिज़ॉल्यूशन की सेटिंग दी गई हैं.

मीडिया किस तरह का है	सुझाई गई सेटिंग	ज़्यादा से ज़्यादा टोकन	इस्तेमाल से जुड़े दिशा-निर्देश
इमेज	`high`	1120	ज़्यादातर इमेज विश्लेषण के टास्क के लिए, इस विकल्प का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके.
PDF	`medium`	560	दस्तावेज़ को समझने के लिए सबसे सही; क्वालिटी आम तौर पर `medium` पर पहुंच जाती है. `high` बढ़ाने से, स्टैंडर्ड दस्तावेज़ों के लिए ओसीआर के नतीजों में कभी-कभार ही सुधार होता है.
वीडियो (सामान्य)	`low` (या `medium`)	70 (हर फ़्रेम के लिए)	ध्यान दें: वीडियो के लिए, कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ करने के लिए, `low` और `medium` सेटिंग को एक जैसा (70 टोकन) माना जाता है. यह कार्रवाई की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है.
वीडियो (इसमें ज़्यादातर टेक्स्ट होता है)	`high`	280 (हर फ़्रेम के लिए)	इसकी ज़रूरत सिर्फ़ तब होती है, जब इस्तेमाल के उदाहरण में टेक्स्ट को पढ़ना (ओसीआर) या वीडियो फ़्रेम में मौजूद छोटी-छोटी चीज़ों को पढ़ना शामिल हो.

हमेशा अलग-अलग रिज़ॉल्यूशन सेटिंग का इस्तेमाल करके, अपने ऐप्लिकेशन पर उनके असर का आकलन करें. इससे आपको क्वालिटी, लेटेन्सी, और लागत के बीच सबसे सही समझौता करने में मदद मिलेगी.

वर्शन के साथ काम करने की सुविधा के बारे में खास जानकारी

resolution को कॉन्टेंट के अलग-अलग आइटम पर सेट करने की सुविधा, सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.

अगले चरण

इमेज को समझने, वीडियो को समझने, और दस्तावेज़ को समझने से जुड़ी गाइड में, Gemini API की मल्टीमॉडल क्षमताओं के बारे में ज़्यादा जानें.