মিডিয়া রেজোলিউশন

media_resolution প্যারামিটারটি মিডিয়া ইনপুটগুলির জন্য বরাদ্দ করা টোকেনের সর্বোচ্চ সংখ্যা নির্ধারণ করার মাধ্যমে নিয়ন্ত্রণ করে যে, Gemini API কীভাবে ছবি, ভিডিও এবং PDF ডকুমেন্টের মতো মিডিয়া ইনপুটগুলি প্রসেস করবে, যা আপনাকে লেটেন্সি এবং খরচের সাথে প্রতিক্রিয়ার মানের ভারসাম্য বজায় রাখতে সাহায্য করে। বিভিন্ন সেটিংস, ডিফল্ট মান এবং টোকেনের সাথে সেগুলির সম্পর্ক জানতে, টোকেন গণনা বিভাগটি দেখুন।

আপনি আপনার অনুরোধের মধ্যে স্বতন্ত্র মিডিয়া অবজেক্টের (কন্টেন্ট আইটেম) জন্য মিডিয়া রেজোলিউশন কনফিগার করতে পারেন (শুধুমাত্র জেমিনি ৩-এর জন্য)।

প্রতিটি কন্টেন্ট আইটেমের জন্য মিডিয়া রেজোলিউশন (শুধুমাত্র জেমিনি ৩-এর জন্য)

জেমিনি ৩ আপনাকে আপনার অনুরোধের মধ্যে থাকা স্বতন্ত্র মিডিয়া অবজেক্টগুলোর জন্য মিডিয়া রেজোলিউশন সেট করার সুযোগ দেয়, যা টোকেন ব্যবহারের সূক্ষ্ম অপ্টিমাইজেশন নিশ্চিত করে। আপনি একটিমাত্র অনুরোধেই বিভিন্ন রেজোলিউশন স্তর মিশ্রিত করতে পারেন। উদাহরণস্বরূপ, একটি জটিল ডায়াগ্রামের জন্য উচ্চ রেজোলিউশন এবং একটি সাধারণ প্রাসঙ্গিক ছবির জন্য নিম্ন রেজোলিউশন ব্যবহার করা।

পাইথন

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

জাভাস্ক্রিপ্ট

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

বিশ্রাম

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

উপলব্ধ রেজোলিউশন মান

জেমিনি এপিআই মিডিয়া রেজোলিউশনের জন্য নিম্নলিখিত স্তরগুলি নির্ধারণ করে:

  • unspecified : ডিফল্ট সেটিং। জেমিনি ৩ এবং এর আগের জেমিনি মডেলগুলোর মধ্যে এই লেভেলের টোকেন সংখ্যায় উল্লেখযোগ্য পার্থক্য থাকে।
  • low : টোকেনের সংখ্যা কম হওয়ায় প্রসেসিং দ্রুত হয় এবং খরচ কম পড়ে, কিন্তু বিস্তারিত তথ্য কম থাকে।
  • medium : বিশদ বিবরণ, খরচ এবং বিলম্বের মধ্যে একটি ভারসাম্য।
  • high : টোকেনের সংখ্যা বেশি হলে মডেল আরও বিস্তারিত তথ্য পায়, তবে এর ফলে লেটেন্সি ও খরচ বেড়ে যায়।
  • ultra_high (শুধুমাত্র প্রতিটি কন্টেন্ট আইটেমের জন্য): সর্বোচ্চ টোকেন সংখ্যা, যা কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে প্রয়োজন।

উল্লেখ্য যে, বেশিরভাগ ব্যবহারের ক্ষেত্রে high সর্বোত্তম পারফরম্যান্স প্রদান করে।

এই প্রতিটি স্তরের জন্য তৈরি হওয়া টোকেনের সঠিক সংখ্যা মিডিয়ার ধরন (ছবি, ভিডিও, পিডিএফ) এবং মডেল সংস্করণ উভয়ের উপরই নির্ভর করে।

টোকেন সংখ্যা

নিচের সারণিগুলোতে প্রতিটি মডেল ফ্যামিলির জন্য media_resolution প্রতিটি মান এবং মিডিয়া টাইপের আনুমানিক টোকেন সংখ্যার সারসংক্ষেপ দেওয়া হয়েছে।

জেমিনি ৩ মডেল

মিডিয়ারেজোলিউশন ছবি ভিডিও পিডিএফ
unspecified (ডিফল্ট) ১১২০ ৭০ ৫৬০
low ২৮০ ৭০ ২৮০ + স্থানীয় পাঠ্য
medium ৫৬০ ৭০ ৫৬০ + স্থানীয় পাঠ্য
high ১১২০ ২৮০ ১১২০ + স্থানীয় পাঠ্য
ultra_high ২২৪০ প্রযোজ্য নয় প্রযোজ্য নয়

সঠিক রেজোলিউশন বেছে নেওয়া

  • ডিফল্ট ( unspecified ): ডিফল্ট দিয়ে শুরু করুন। এটি সর্বাধিক প্রচলিত ব্যবহারের ক্ষেত্রে গুণমান, লেটেন্সি এবং খরচের একটি ভালো ভারসাম্য বজায় রাখার জন্য টিউন করা হয়েছে।
  • low : এমন পরিস্থিতিতে ব্যবহার করুন যেখানে খরচ এবং লেটেন্সি সবচেয়ে গুরুত্বপূর্ণ, এবং সূক্ষ্ম বিবরণ ততটা জরুরি নয়।
  • medium / high : যখন কোনো কাজের জন্য মিডিয়ার ভেতরের সূক্ষ্ম বিবরণ বোঝার প্রয়োজন হয়, তখন রেজোলিউশন বাড়ান। জটিল দৃশ্যগত বিশ্লেষণ, চার্ট পড়া বা দুর্বোধ্য নথি বোঝার জন্য প্রায়শই এটির প্রয়োজন হয়।
  • ultra_high - শুধুমাত্র প্রতিটি কন্টেন্ট আইটেমের জন্য প্রযোজ্য। কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে অথবা যেখানে পরীক্ষায় high চেয়ে সুস্পষ্ট উন্নতি দেখা যায়, সেখানে এটি ব্যবহারের পরামর্শ দেওয়া হয়।
  • প্রতিটি কন্টেন্ট-আইটেম নিয়ন্ত্রণ (জেমিনি ৩): টোকেনের ব্যবহার অপ্টিমাইজ করে। উদাহরণস্বরূপ, একাধিক ছবিযুক্ত কোনো প্রম্পটে, জটিল ডায়াগ্রামের জন্য high এবং সহজ প্রাসঙ্গিক ছবির জন্য low বা ' medium ব্যবহার করুন।

প্রস্তাবিত সেটিংস

নিম্নলিখিত তালিকায় প্রতিটি সমর্থিত মিডিয়া টাইপের জন্য প্রস্তাবিত মিডিয়া রেজোলিউশন সেটিংস দেওয়া হলো।

মিডিয়া টাইপ প্রস্তাবিত সেটিং সর্বোচ্চ টোকেন ব্যবহারের নির্দেশিকা
ছবি high ১১২০ সর্বোচ্চ গুণমান নিশ্চিত করতে অধিকাংশ চিত্র বিশ্লেষণ কাজের জন্য এটি সুপারিশ করা হয়।
পিডিএফ medium ৫৬০ ডকুমেন্ট বোঝার জন্য সর্বোত্তম; এর গুণমান সাধারণত medium স্থির হয়ে যায়। সাধারণ ডকুমেন্টের ক্ষেত্রে, স্তর বাড়িয়ে high করলে OCR ফলাফলের উন্নতি খুব কমই হয়।
ভিডিও (সাধারণ) low (বা medium ) ৭০ (প্রতি ফ্রেমে) দ্রষ্টব্য: ভিডিওর ক্ষেত্রে, কনটেক্সট ব্যবহার অপ্টিমাইজ করার জন্য low এবং medium সেটিংসকে একইভাবে (৭০ টোকেন) বিবেচনা করা হয়। বেশিরভাগ অ্যাকশন শনাক্তকরণ এবং বর্ণনার কাজের জন্য এটি যথেষ্ট।
ভিডিও (লেখা-বহুল) high ২৮০ (প্রতি ফ্রেমে) শুধুমাত্র তখনই প্রয়োজন হয়, যখন ব্যবহারের ক্ষেত্রে ঘন পাঠ্য (OCR) অথবা ভিডিও ফ্রেমের মধ্যে থাকা সূক্ষ্ম বিবরণ পড়ার প্রয়োজন হয়।

গুণমান, ল্যাটেন্সি এবং খরচের মধ্যে সর্বোত্তম ভারসাম্য খুঁজে পেতে আপনার অ্যাপ্লিকেশনে বিভিন্ন রেজোলিউশন সেটিংসের প্রভাব সর্বদা পরীক্ষা ও মূল্যায়ন করুন।

সংস্করণ সামঞ্জস্যের সারাংশ

  • স্বতন্ত্র কন্টেন্ট আইটেমের resolution নির্ধারণ করার সুবিধাটি শুধুমাত্র জেমিনি ৩ মডেলের ক্ষেত্রেই রয়েছে।

পরবর্তী পদক্ষেপ