मीडिया का रिज़ॉल्यूशन

media_resolution पैरामीटर से यह कंट्रोल किया जाता है कि Gemini API, मीडिया इनपुट को कैसे प्रोसेस करता है. जैसे, इमेज, वीडियो, और PDF दस्तावेज़. इसके लिए, मीडिया इनपुट के लिए ज़्यादा से ज़्यादा टोकन की संख्या तय की जाती है. इससे, रिस्पॉन्स की क्वालिटी, इंतज़ार का समय, और लागत के बीच बैलेंस बनाया जा सकता है. अलग-अलग सेटिंग के लिए, डिफ़ॉल्ट वैल्यू और वे टोकन से कैसे जुड़ी होती हैं, यह जानने के लिए टोकन की संख्या वाला सेक्शन देखें.

अपने अनुरोध (सिर्फ़ Gemini 3) में, मीडिया के अलग-अलग ऑब्जेक्ट (कॉन्टेंट आइटम) के लिए मीडिया रिज़ॉल्यूशन कॉन्फ़िगर किया जा सकता है.

हर कॉन्टेंट आइटम के लिए मीडिया रिज़ॉल्यूशन (सिर्फ़ Gemini 3)

Gemini 3 में, अपने अनुरोध में मीडिया के अलग-अलग ऑब्जेक्ट के लिए मीडिया रिज़ॉल्यूशन सेट किया जा सकता है. इससे, टोकन के इस्तेमाल को बेहतर तरीके से ऑप्टिमाइज़ किया जा सकता है. एक ही अनुरोध में, अलग-अलग रिज़ॉल्यूशन लेवल का इस्तेमाल किया जा सकता है. उदाहरण के लिए, किसी जटिल डायग्राम के लिए हाई रिज़ॉल्यूशन और किसी सामान्य कॉन्टेक्चुअल इमेज के लिए लो रिज़ॉल्यूशन का इस्तेमाल करना.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mime_type: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mime_type: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.output_text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

उपलब्ध रिज़ॉल्यूशन वैल्यू

Gemini API, मीडिया रिज़ॉल्यूशन के लिए ये लेवल तय करता है:

  • unspecified: यह डिफ़ॉल्ट सेटिंग है. इस लेवल के लिए टोकन की संख्या, Gemini 3 और Gemini के पुराने मॉडल के बीच काफ़ी अलग-अलग होती है.
  • low: इसमें टोकन की संख्या कम होती है. इससे, प्रोसेसिंग की स्पीड बढ़ती है और लागत कम होती है. हालांकि, इसमें कम जानकारी मिलती है.
  • medium: इसमें जानकारी, लागत, और इंतज़ार के समय के बीच बैलेंस होता है.
  • high: इसमें टोकन की संख्या ज़्यादा होती है. इससे मॉडल को काम करने के लिए ज़्यादा जानकारी मिलती है. हालांकि, इसमें इंतज़ार का समय और लागत बढ़ जाती है.
  • ultra_high (सिर्फ़ हर कॉन्टेंट आइटम के लिए): इसमें टोकन की संख्या सबसे ज़्यादा होती है. इसका इस्तेमाल, खास इस्तेमाल के उदाहरणों के लिए किया जाता है. जैसे, कंप्यूटर का इस्तेमाल.

ध्यान दें कि ज़्यादातर इस्तेमाल के उदाहरणों के लिए, high सेटिंग से सबसे अच्छी परफ़ॉर्मेंस मिलती है.

इनमें से हर लेवल के लिए जनरेट किए गए टोकन की सटीक संख्या, मीडिया के टाइप (इमेज, वीडियो, PDF) और मॉडल के वर्शन दोनों पर निर्भर करती है.

टोकन की संख्या

यहां दी गई टेबल में, मॉडल के हर परिवार के लिए, media_resolution की हर वैल्यू और मीडिया के टाइप के हिसाब से, टोकन की अनुमानित संख्या की खास जानकारी दी गई है.

Gemini 3 मॉडल

MediaResolution इमेज वीडियो PDF
unspecified (डिफ़ॉल्ट) 1120 70 560
low 280 70 280 + नेटिव टेक्स्ट
medium 560 70 560 + नेटिव टेक्स्ट
high 1120 280 1120 + नेटिव टेक्स्ट
ultra_high 2240 लागू नहीं लागू नहीं

सही रिज़ॉल्यूशन चुनना

  • डिफ़ॉल्ट (unspecified): डिफ़ॉल्ट सेटिंग से शुरू करें. इसे, ज़्यादातर इस्तेमाल के उदाहरणों के लिए, क्वालिटी, इंतज़ार के समय, और लागत के बीच बेहतर बैलेंस के लिए ऑप्टिमाइज़ किया गया है.
  • low: इसका इस्तेमाल उन स्थितियों के लिए करें जहां लागत और इंतज़ार का समय सबसे अहम है. साथ ही, जहां ज़्यादा जानकारी की ज़रूरत नहीं है.
  • medium / high: जब टास्क के लिए, मीडिया में मौजूद जटिल जानकारी को समझने की ज़रूरत हो, तब रिज़ॉल्यूशन बढ़ाएं. इसकी ज़रूरत अक्सर, जटिल विज़ुअल विश्लेषण, चार्ट पढ़ने या ज़्यादा जानकारी वाले दस्तावेज़ को समझने के लिए होती है.
  • ultra_high - यह सेटिंग सिर्फ़ हर कॉन्टेंट आइटम के लिए उपलब्ध है. इसका इस्तेमाल, खास इस्तेमाल के उदाहरणों के लिए किया जाता है. जैसे, कंप्यूटर का इस्तेमाल. इसके अलावा, इसका इस्तेमाल तब किया जाता है, जब टेस्टिंग से पता चलता है कि high के मुकाबले, इससे बेहतर नतीजे मिलते हैं.
  • हर कॉन्टेंट आइटम के लिए कंट्रोल (Gemini 3): इससे टोकन के इस्तेमाल को ऑप्टिमाइज़ किया जाता है. उदाहरण के लिए, एक ऐसे प्रॉम्प्ट में जिसमें कई इमेज हैं, किसी जटिल डायग्राम के लिए high और सामान्य कॉन्टेक्चुअल इमेज के लिए low या medium का इस्तेमाल करें.

सुझाई गई सेटिंग

यहां, मीडिया के हर टाइप के लिए, मीडिया रिज़ॉल्यूशन की सुझाई गई सेटिंग दी गई हैं.

मीडिया किस तरह का है सुझाई गई सेटिंग ज़्यादा से ज़्यादा टोकन इस्तेमाल के लिए दिशा-निर्देश
इमेज high 1120 इमेज के विश्लेषण से जुड़े ज़्यादातर टास्क के लिए, इस सेटिंग का इस्तेमाल करने का सुझाव दिया जाता है, ताकि सबसे अच्छी क्वालिटी मिल सके.
PDF medium 560 यह सेटिंग, दस्तावेज़ को समझने के लिए सबसे अच्छी है. आम तौर पर, medium सेटिंग पर क्वालिटी सबसे अच्छी होती है. आम तौर पर, सामान्य दस्तावेज़ों के लिए, high सेटिंग का इस्तेमाल करने से ओसीआर के नतीजों में कोई सुधार नहीं होता.
वीडियो (सामान्य) low (या medium) 70 (हर फ़्रेम के लिए) ध्यान दें: वीडियो के लिए, low और medium सेटिंग को एक जैसा (70 टोकन) माना जाता है, ताकि कॉन्टेक्स्ट के इस्तेमाल को ऑप्टिमाइज़ किया जा सके. यह सेटिंग, ऐक्शन की पहचान करने और उसके बारे में बताने से जुड़े ज़्यादातर टास्क के लिए काफ़ी है.
वीडियो (जिसमें ज़्यादा टेक्स्ट हो) high 280 (हर फ़्रेम के लिए) इस सेटिंग का इस्तेमाल सिर्फ़ तब किया जाता है, जब इस्तेमाल के उदाहरण में, वीडियो फ़्रेम में मौजूद ज़्यादा टेक्स्ट (ओसीआर) या छोटी-छोटी जानकारी को पढ़ने की ज़रूरत हो.

क्वालिटी, इंतज़ार के समय, और लागत के बीच सबसे अच्छा बैलेंस पाने के लिए, अपने ऐप्लिकेशन पर अलग-अलग रिज़ॉल्यूशन सेटिंग की परफ़ॉर्मेंस की जांच और आकलन करें.

वर्शन के साथ काम करने की सुविधा की खास जानकारी

  • कॉन्टेंट के अलग-अलग आइटम के लिए resolution सेट करने की सुविधा सिर्फ़ Gemini 3 मॉडल के लिए उपलब्ध है.

अगले चरण