মিডিয়া রেজোলিউশন
media_resolution প্যারামিটারটি মিডিয়া ইনপুটগুলির জন্য বরাদ্দ করা টোকেনের সর্বোচ্চ সংখ্যা নির্ধারণ করার মাধ্যমে নিয়ন্ত্রণ করে যে, Gemini API কীভাবে ছবি, ভিডিও এবং PDF ডকুমেন্টের মতো মিডিয়া ইনপুটগুলি প্রসেস করবে, যা আপনাকে লেটেন্সি এবং খরচের সাথে প্রতিক্রিয়ার মানের ভারসাম্য বজায় রাখতে সাহায্য করে। বিভিন্ন সেটিংস, ডিফল্ট মান এবং টোকেনের সাথে সেগুলির সম্পর্ক জানতে, টোকেন গণনা বিভাগটি দেখুন।
আপনি আপনার অনুরোধের মধ্যে স্বতন্ত্র মিডিয়া অবজেক্টের (কন্টেন্ট আইটেম) জন্য মিডিয়া রেজোলিউশন কনফিগার করতে পারেন (শুধুমাত্র জেমিনি ৩-এর জন্য)।
প্রতিটি কন্টেন্ট আইটেমের জন্য মিডিয়া রেজোলিউশন (শুধুমাত্র জেমিনি ৩-এর জন্য)
জেমিনি ৩ আপনাকে আপনার অনুরোধের মধ্যে থাকা স্বতন্ত্র মিডিয়া অবজেক্টগুলোর জন্য মিডিয়া রেজোলিউশন সেট করার সুযোগ দেয়, যা টোকেন ব্যবহারের সূক্ষ্ম অপ্টিমাইজেশন নিশ্চিত করে। আপনি একটিমাত্র অনুরোধেই বিভিন্ন রেজোলিউশন স্তর মিশ্রিত করতে পারেন। উদাহরণস্বরূপ, একটি জটিল ডায়াগ্রামের জন্য উচ্চ রেজোলিউশন এবং একটি সাধারণ প্রাসঙ্গিক ছবির জন্য নিম্ন রেজোলিউশন ব্যবহার করা।
পাইথন
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
জাভাস্ক্রিপ্ট
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
বিশ্রাম
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
উপলব্ধ রেজোলিউশন মান
জেমিনি এপিআই মিডিয়া রেজোলিউশনের জন্য নিম্নলিখিত স্তরগুলি নির্ধারণ করে:
-
unspecified: ডিফল্ট সেটিং। জেমিনি ৩ এবং এর আগের জেমিনি মডেলগুলোর মধ্যে এই লেভেলের টোকেন সংখ্যায় উল্লেখযোগ্য পার্থক্য থাকে। -
low: টোকেনের সংখ্যা কম হওয়ায় প্রসেসিং দ্রুত হয় এবং খরচ কম পড়ে, কিন্তু বিস্তারিত তথ্য কম থাকে। -
medium: বিশদ বিবরণ, খরচ এবং বিলম্বের মধ্যে একটি ভারসাম্য। -
high: টোকেনের সংখ্যা বেশি হলে মডেল আরও বিস্তারিত তথ্য পায়, তবে এর ফলে লেটেন্সি ও খরচ বেড়ে যায়। -
ultra_high(শুধুমাত্র প্রতিটি কন্টেন্ট আইটেমের জন্য): সর্বোচ্চ টোকেন সংখ্যা, যা কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে প্রয়োজন।
উল্লেখ্য যে, বেশিরভাগ ব্যবহারের ক্ষেত্রে high সর্বোত্তম পারফরম্যান্স প্রদান করে।
এই প্রতিটি স্তরের জন্য তৈরি হওয়া টোকেনের সঠিক সংখ্যা মিডিয়ার ধরন (ছবি, ভিডিও, পিডিএফ) এবং মডেল সংস্করণ উভয়ের উপরই নির্ভর করে।
টোকেন সংখ্যা
নিচের সারণিগুলোতে প্রতিটি মডেল ফ্যামিলির জন্য media_resolution প্রতিটি মান এবং মিডিয়া টাইপের আনুমানিক টোকেন সংখ্যার সারসংক্ষেপ দেওয়া হয়েছে।
জেমিনি ৩ মডেল
| মিডিয়ারেজোলিউশন | ছবি | ভিডিও | পিডিএফ |
|---|---|---|---|
unspecified (ডিফল্ট) | ১১২০ | ৭০ | ৫৬০ |
low | ২৮০ | ৭০ | ২৮০ + স্থানীয় পাঠ্য |
medium | ৫৬০ | ৭০ | ৫৬০ + স্থানীয় পাঠ্য |
high | ১১২০ | ২৮০ | ১১২০ + স্থানীয় পাঠ্য |
ultra_high | ২২৪০ | প্রযোজ্য নয় | প্রযোজ্য নয় |
সঠিক রেজোলিউশন বেছে নেওয়া
- ডিফল্ট (
unspecified): ডিফল্ট দিয়ে শুরু করুন। এটি সর্বাধিক প্রচলিত ব্যবহারের ক্ষেত্রে গুণমান, লেটেন্সি এবং খরচের একটি ভালো ভারসাম্য বজায় রাখার জন্য টিউন করা হয়েছে। -
low: এমন পরিস্থিতিতে ব্যবহার করুন যেখানে খরচ এবং লেটেন্সি সবচেয়ে গুরুত্বপূর্ণ, এবং সূক্ষ্ম বিবরণ ততটা জরুরি নয়। -
medium/high: যখন কোনো কাজের জন্য মিডিয়ার ভেতরের সূক্ষ্ম বিবরণ বোঝার প্রয়োজন হয়, তখন রেজোলিউশন বাড়ান। জটিল দৃশ্যগত বিশ্লেষণ, চার্ট পড়া বা দুর্বোধ্য নথি বোঝার জন্য প্রায়শই এটির প্রয়োজন হয়। -
ultra_high- শুধুমাত্র প্রতিটি কন্টেন্ট আইটেমের জন্য প্রযোজ্য। কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে অথবা যেখানে পরীক্ষায়highচেয়ে সুস্পষ্ট উন্নতি দেখা যায়, সেখানে এটি ব্যবহারের পরামর্শ দেওয়া হয়। - প্রতিটি কন্টেন্ট-আইটেম নিয়ন্ত্রণ (জেমিনি ৩): টোকেনের ব্যবহার অপ্টিমাইজ করে। উদাহরণস্বরূপ, একাধিক ছবিযুক্ত কোনো প্রম্পটে, জটিল ডায়াগ্রামের জন্য
highএবং সহজ প্রাসঙ্গিক ছবির জন্যlowবা 'mediumব্যবহার করুন।
প্রস্তাবিত সেটিংস
নিম্নলিখিত তালিকায় প্রতিটি সমর্থিত মিডিয়া টাইপের জন্য প্রস্তাবিত মিডিয়া রেজোলিউশন সেটিংস দেওয়া হলো।
| মিডিয়া টাইপ | প্রস্তাবিত সেটিং | সর্বোচ্চ টোকেন | ব্যবহারের নির্দেশিকা |
|---|---|---|---|
| ছবি | high | ১১২০ | সর্বোচ্চ গুণমান নিশ্চিত করতে অধিকাংশ চিত্র বিশ্লেষণ কাজের জন্য এটি সুপারিশ করা হয়। |
| পিডিএফ | medium | ৫৬০ | ডকুমেন্ট বোঝার জন্য সর্বোত্তম; এর গুণমান সাধারণত medium স্থির হয়ে যায়। সাধারণ ডকুমেন্টের ক্ষেত্রে, স্তর বাড়িয়ে high করলে OCR ফলাফলের উন্নতি খুব কমই হয়। |
| ভিডিও (সাধারণ) | low (বা medium ) | ৭০ (প্রতি ফ্রেমে) | দ্রষ্টব্য: ভিডিওর ক্ষেত্রে, কনটেক্সট ব্যবহার অপ্টিমাইজ করার জন্য low এবং medium সেটিংসকে একইভাবে (৭০ টোকেন) বিবেচনা করা হয়। বেশিরভাগ অ্যাকশন শনাক্তকরণ এবং বর্ণনার কাজের জন্য এটি যথেষ্ট। |
| ভিডিও (লেখা-বহুল) | high | ২৮০ (প্রতি ফ্রেমে) | শুধুমাত্র তখনই প্রয়োজন হয়, যখন ব্যবহারের ক্ষেত্রে ঘন পাঠ্য (OCR) অথবা ভিডিও ফ্রেমের মধ্যে থাকা সূক্ষ্ম বিবরণ পড়ার প্রয়োজন হয়। |
গুণমান, ল্যাটেন্সি এবং খরচের মধ্যে সর্বোত্তম ভারসাম্য খুঁজে পেতে আপনার অ্যাপ্লিকেশনে বিভিন্ন রেজোলিউশন সেটিংসের প্রভাব সর্বদা পরীক্ষা ও মূল্যায়ন করুন।
সংস্করণ সামঞ্জস্যের সারাংশ
- স্বতন্ত্র কন্টেন্ট আইটেমের
resolutionনির্ধারণ করার সুবিধাটি শুধুমাত্র জেমিনি ৩ মডেলের ক্ষেত্রেই রয়েছে।
পরবর্তী পদক্ষেপ
- ইমেজ আন্ডারস্ট্যান্ডিং , ভিডিও আন্ডারস্ট্যান্ডিং এবং ডকুমেন্ট আন্ডারস্ট্যান্ডিং গাইডগুলোতে জেমিনি এপিআই-এর মাল্টিমোডাল সক্ষমতা সম্পর্কে আরও জানুন।