মিডিয়া রেজোলিউশন

media_resolution প্যারামিটারটি মিডিয়া ইনপুটগুলির জন্য বরাদ্দ করা টোকেনের সর্বোচ্চ সংখ্যা নির্ধারণ করার মাধ্যমে নিয়ন্ত্রণ করে যে, Gemini API কীভাবে ছবি, ভিডিও এবং PDF ডকুমেন্টের মতো মিডিয়া ইনপুটগুলি প্রসেস করবে, যা আপনাকে লেটেন্সি এবং খরচের সাথে প্রতিক্রিয়ার মানের ভারসাম্য বজায় রাখতে সাহায্য করে। বিভিন্ন সেটিংস, ডিফল্ট মান এবং টোকেনের সাথে সেগুলির সম্পর্ক জানতে, টোকেন গণনা বিভাগটি দেখুন।

আপনি দুইভাবে মিডিয়া রেজোলিউশন কনফিগার করতে পারেন:

প্রতি-অংশ মিডিয়া রেজোলিউশন (শুধুমাত্র জেমিনি ৩-এর জন্য)

জেমিনি ৩ আপনাকে আপনার অনুরোধের মধ্যে থাকা স্বতন্ত্র মিডিয়া অবজেক্টের জন্য মিডিয়া রেজোলিউশন সেট করার সুযোগ দেয়, যা টোকেন ব্যবহারের সূক্ষ্ম অপ্টিমাইজেশন নিশ্চিত করে। আপনি একটিমাত্র অনুরোধেই বিভিন্ন রেজোলিউশন লেভেল মিশ্রিত করতে পারেন। উদাহরণস্বরূপ, একটি জটিল ডায়াগ্রামের জন্য উচ্চ রেজোলিউশন এবং একটি সাধারণ প্রাসঙ্গিক ছবির জন্য নিম্ন রেজোলিউশন ব্যবহার করা। এই সেটিংটি একটি নির্দিষ্ট অংশের জন্য যেকোনো গ্লোবাল কনফিগারেশনকে ওভাররাইড করে। ডিফল্ট সেটিংসের জন্য, টোকেন কাউন্টস বিভাগটি দেখুন।

পাইথন

from google import genai
from google.genai import types

# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
  http_options={
      'api_version': 'v1alpha',
  }
)

# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
    image_bytes_1 = f.read()

# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
    data=image_bytes_1,
    mime_type='image/jpeg',
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

model_name = 'gemini-3.1-pro-preview'

response = client.models.generate_content(
    model=model_name,
    contents=["Describe these images:", image_part_high]
)
print(response.text)

জাভাস্ক্রিপ্ট

// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js

const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });

// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
    return {
        inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
        mediaResolution: { 'level': mediaResolution }
    };
}

async function run() {
    // Create parts with different resolutions
    const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
    const model_name = 'gemini-3.1-pro-preview';
    const response = await ai.models.generateContent({
        model: model_name,
        contents: ['Describe these images:', imagePartHigh]
        // Global config can still be set, but per-part settings will override
        // config: {
        //   mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
        // }
    });
    console.log(response.text);
}
run();

বিশ্রাম

# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"

# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")

MODEL_ID="gemini-3.1-pro-preview"

echo '{
    "contents": [{
      "parts": [
        {"text": "Describe these images:"},
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "'"$BASE64_IMAGE1"'",
          },
          "media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
        }
      ]
    }]
  }' > request.json

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d @request.json

বৈশ্বিক গণমাধ্যম রেজোলিউশন

আপনি GenerationConfig ব্যবহার করে একটি অনুরোধের সমস্ত মিডিয়া পার্টের জন্য একটি ডিফল্ট রেজোলিউশন সেট করতে পারেন। এটি সমস্ত মাল্টিমোডাল মডেল দ্বারা সমর্থিত। যদি কোনো অনুরোধে গ্লোবাল এবং পার্ট-ভিত্তিক উভয় সেটিংস অন্তর্ভুক্ত থাকে, তবে সেই নির্দিষ্ট আইটেমটির জন্য পার্ট-ভিত্তিক সেটিংটি অগ্রাধিকার পাবে।

পাইথন

from google import genai
from google.genai import types

client = genai.Client()

# Prepare standard image part
with open('image.jpg', 'rb') as f:
    image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')

# Set global configuration
config = types.GenerateContentConfig(
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

response = client.models.generate_content(
    model='gemini-3-flash-preview',
    contents=["Describe this image:", image_part],
    config=config
)
print(response.text)

জাভাস্ক্রিপ্ট

import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';

const ai = new GoogleGenAI({ });

async function run() {
   // ... (Image loading logic) ...

   const response = await ai.models.generateContent({
      model: 'gemini-3-flash-preview',
      contents: ["Describe this image:", imagePart],
      config: {
         mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
      }
   });
   console.log(response.text);
}
run();

বিশ্রাম

# ... (Base64 encoding logic) ...

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [...],
    "generation_config": {
      "media_resolution": "MEDIA_RESOLUTION_HIGH"
    }
  }'

উপলব্ধ রেজোলিউশন মান

জেমিনি এপিআই মিডিয়া রেজোলিউশনের জন্য নিম্নলিখিত স্তরগুলি নির্ধারণ করে:

  • MEDIA_RESOLUTION_UNSPECIFIED : এটি ডিফল্ট সেটিং। জেমিনি ৩ এবং এর আগের জেমিনি মডেলগুলোর মধ্যে এই লেভেলের টোকেন সংখ্যা উল্লেখযোগ্যভাবে ভিন্ন হয়।
  • MEDIA_RESOLUTION_LOW : কম টোকেন সংখ্যার কারণে প্রসেসিং দ্রুত হয় এবং খরচ কম পড়ে, কিন্তু বিস্তারিত তথ্য কম থাকে।
  • MEDIA_RESOLUTION_MEDIUM : বিশদ বিবরণ, খরচ এবং লেটেন্সির মধ্যে একটি ভারসাম্য।
  • MEDIA_RESOLUTION_HIGH ): উচ্চতর টোকেন সংখ্যা, যা মডেলকে কাজ করার জন্য আরও বিশদ তথ্য সরবরাহ করে, তবে এর ফলে লেটেন্সি এবং খরচ বৃদ্ধি পায়।
  • MEDIA_RESOLUTION_ULTRA_HIGH (শুধুমাত্র প্রতি অংশের জন্য): সর্বোচ্চ টোকেন সংখ্যা, যা কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে প্রয়োজন।

উল্লেখ্য যে, বেশিরভাগ ব্যবহারের ক্ষেত্রে MEDIA_RESOLUTION_HIGH সর্বোত্তম পারফরম্যান্স প্রদান করে।

এই প্রতিটি স্তরের জন্য তৈরি হওয়া টোকেনের সঠিক সংখ্যা মিডিয়ার ধরন (ছবি, ভিডিও, পিডিএফ) এবং মডেল সংস্করণ উভয়ের উপরই নির্ভর করে।

টোকেন সংখ্যা

নিচের সারণিগুলোতে প্রতিটি মডেল ফ্যামিলির জন্য media_resolution প্রতিটি মান এবং মিডিয়া টাইপের আনুমানিক টোকেন সংখ্যার সারসংক্ষেপ দেওয়া হয়েছে।

জেমিনি ৩ মডেল

মিডিয়ারেজোলিউশন ছবি ভিডিও পিডিএফ
MEDIA_RESOLUTION_UNSPECIFIED (ডিফল্ট) ১১২০ ৭০ ৫৬০
MEDIA_RESOLUTION_LOW ২৮০ ৭০ ২৮০ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_MEDIUM ৫৬০ ৭০ ৫৬০ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_HIGH ১১২০ ২৮০ ১১২০ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_ULTRA_HIGH ২২৪০ প্রযোজ্য নয় প্রযোজ্য নয়

জেমিনি ২.৫ মডেল

মিডিয়ারেজোলিউশন ছবি ভিডিও পিডিএফ (স্ক্যান করা) পিডিএফ (নেটিভ)
MEDIA_RESOLUTION_UNSPECIFIED (ডিফল্ট) ২৫৬ + প্যান ও স্ক্যান (~২০৪৮) ২৫৬ ২৫৬ + ওসিআর ২৫৬ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_LOW ৬৪ ৬৪ ৬৪ + ওসিআর ৬৪ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_MEDIUM ২৫৬ ২৫৬ ২৫৬ + ওসিআর ২৫৬ + স্থানীয় পাঠ্য
MEDIA_RESOLUTION_HIGH ২৫৬ + প্যান ও স্ক্যান ২৫৬ ২৫৬ + ওসিআর ২৫৬ + স্থানীয় পাঠ্য

সঠিক রেজোলিউশন বেছে নেওয়া

  • ডিফল্ট ( UNSPECIFIED ): ডিফল্ট দিয়ে শুরু করুন। এটি সর্বাধিক প্রচলিত ব্যবহারের ক্ষেত্রে গুণমান, লেটেন্সি এবং খরচের একটি ভালো ভারসাম্য বজায় রাখার জন্য টিউন করা হয়েছে।
  • LOW : এমন পরিস্থিতিতে ব্যবহার করুন যেখানে খরচ এবং লেটেন্সি সবচেয়ে গুরুত্বপূর্ণ, এবং সূক্ষ্ম বিবরণ ততটা জরুরি নয়।
  • MEDIUM / HIGH : যখন কোনো কাজের জন্য মিডিয়ার ভেতরের সূক্ষ্ম বিবরণ বোঝার প্রয়োজন হয়, তখন রেজোলিউশন বাড়ান। জটিল দৃশ্যগত বিশ্লেষণ, চার্ট পড়া বা দুর্বোধ্য নথি বোঝার জন্য প্রায়শই এটির প্রয়োজন হয়।
  • ULTRA HIGH - শুধুমাত্র প্রতিটি অংশের জন্য আলাদাভাবে সেট করা যায়। কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে অথবা যেখানে পরীক্ষায় HIGH চেয়ে সুস্পষ্ট উন্নতি দেখা যায়, সেখানে এটি ব্যবহারের পরামর্শ দেওয়া হয়।
  • অংশ-ভিত্তিক নিয়ন্ত্রণ (জেমিনি ৩): টোকেনের ব্যবহার অপ্টিমাইজ করে। উদাহরণস্বরূপ, একাধিক ছবিযুক্ত কোনো প্রম্পটে, জটিল ডায়াগ্রামের জন্য HIGH এবং অপেক্ষাকৃত সহজ প্রাসঙ্গিক ছবির জন্য LOW বা MEDIUM ব্যবহার করুন।

প্রস্তাবিত সেটিংস

নিম্নলিখিত তালিকায় প্রতিটি সমর্থিত মিডিয়া টাইপের জন্য প্রস্তাবিত মিডিয়া রেজোলিউশন সেটিংস দেওয়া হলো।

মিডিয়া টাইপ প্রস্তাবিত সেটিং সর্বোচ্চ টোকেন ব্যবহারের নির্দেশিকা
ছবি MEDIA_RESOLUTION_HIGH ১১২০ সর্বোচ্চ গুণমান নিশ্চিত করতে অধিকাংশ চিত্র বিশ্লেষণ কাজের জন্য এটি সুপারিশ করা হয়।
পিডিএফ MEDIA_RESOLUTION_MEDIUM ৫৬০ ডকুমেন্ট বোঝার জন্য সর্বোত্তম; এর গুণমান সাধারণত medium স্থির হয়ে যায়। সাধারণ ডকুমেন্টের ক্ষেত্রে, স্তর বাড়িয়ে high করলে OCR ফলাফলের উন্নতি খুব কমই হয়।
ভিডিও (সাধারণ) MEDIA_RESOLUTION_LOW (অথবা MEDIA_RESOLUTION_MEDIUM ) ৭০ (প্রতি ফ্রেমে) দ্রষ্টব্য: ভিডিওর ক্ষেত্রে, কনটেক্সট ব্যবহার অপ্টিমাইজ করার জন্য low এবং medium সেটিংসকে একইভাবে (৭০ টোকেন) বিবেচনা করা হয়। বেশিরভাগ অ্যাকশন শনাক্তকরণ এবং বর্ণনার কাজের জন্য এটি যথেষ্ট।
ভিডিও (লেখা-বহুল) MEDIA_RESOLUTION_HIGH ২৮০ (প্রতি ফ্রেমে) শুধুমাত্র তখনই প্রয়োজন হয়, যখন ব্যবহারের ক্ষেত্রে ঘন পাঠ্য (OCR) অথবা ভিডিও ফ্রেমের মধ্যে থাকা সূক্ষ্ম বিবরণ পড়ার প্রয়োজন হয়।

গুণমান, ল্যাটেন্সি এবং খরচের মধ্যে সর্বোত্তম ভারসাম্য খুঁজে পেতে আপনার নির্দিষ্ট অ্যাপ্লিকেশনে বিভিন্ন রেজোলিউশন সেটিংসের প্রভাব সর্বদা পরীক্ষা ও মূল্যায়ন করুন।

সংস্করণ সামঞ্জস্যের সারাংশ

  • মিডিয়া ইনপুট সমর্থনকারী সকল মডেলের জন্য MediaResolution enum-টি উপলব্ধ।
  • জেমিনি ৩ মডেল এবং এর পূর্ববর্তী সংস্করণগুলোর মধ্যে প্রতিটি এনাম লেভেলের সাথে যুক্ত টোকেন সংখ্যা ভিন্ন হয়
  • স্বতন্ত্র Part অবজেক্টে media_resolution সেট করার সুবিধাটি শুধুমাত্র জেমিনি ৩ মডেলের ক্ষেত্রেই প্রযোজ্য

পরবর্তী পদক্ষেপ