মিডিয়া রেজোলিউশন
media_resolution প্যারামিটারটি মিডিয়া ইনপুটগুলির জন্য বরাদ্দ করা টোকেনের সর্বোচ্চ সংখ্যা নির্ধারণ করার মাধ্যমে নিয়ন্ত্রণ করে যে, Gemini API কীভাবে ছবি, ভিডিও এবং PDF ডকুমেন্টের মতো মিডিয়া ইনপুটগুলি প্রসেস করবে, যা আপনাকে লেটেন্সি এবং খরচের সাথে প্রতিক্রিয়ার মানের ভারসাম্য বজায় রাখতে সাহায্য করে। বিভিন্ন সেটিংস, ডিফল্ট মান এবং টোকেনের সাথে সেগুলির সম্পর্ক জানতে, টোকেন গণনা বিভাগটি দেখুন।
আপনি দুইভাবে মিডিয়া রেজোলিউশন কনফিগার করতে পারেন:
প্রতি অংশ (শুধুমাত্র মিথুন ৩ এর জন্য)
বিশ্বব্যাপী একটি সম্পূর্ণ
generateContentঅনুরোধের জন্য (সকল মাল্টিমোডাল মডেল)
প্রতি-অংশ মিডিয়া রেজোলিউশন (শুধুমাত্র জেমিনি ৩-এর জন্য)
জেমিনি ৩ আপনাকে আপনার অনুরোধের মধ্যে থাকা স্বতন্ত্র মিডিয়া অবজেক্টের জন্য মিডিয়া রেজোলিউশন সেট করার সুযোগ দেয়, যা টোকেন ব্যবহারের সূক্ষ্ম অপ্টিমাইজেশন নিশ্চিত করে। আপনি একটিমাত্র অনুরোধেই বিভিন্ন রেজোলিউশন লেভেল মিশ্রিত করতে পারেন। উদাহরণস্বরূপ, একটি জটিল ডায়াগ্রামের জন্য উচ্চ রেজোলিউশন এবং একটি সাধারণ প্রাসঙ্গিক ছবির জন্য নিম্ন রেজোলিউশন ব্যবহার করা। এই সেটিংটি একটি নির্দিষ্ট অংশের জন্য যেকোনো গ্লোবাল কনফিগারেশনকে ওভাররাইড করে। ডিফল্ট সেটিংসের জন্য, টোকেন কাউন্টস বিভাগটি দেখুন।
পাইথন
from google import genai
from google.genai import types
# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
http_options={
'api_version': 'v1alpha',
}
)
# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
image_bytes_1 = f.read()
# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
data=image_bytes_1,
mime_type='image/jpeg',
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
model_name = 'gemini-3.1-pro-preview'
response = client.models.generate_content(
model=model_name,
contents=["Describe these images:", image_part_high]
)
print(response.text)
জাভাস্ক্রিপ্ট
// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js
const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });
// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
return {
inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
mediaResolution: { 'level': mediaResolution }
};
}
async function run() {
// Create parts with different resolutions
const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
const model_name = 'gemini-3.1-pro-preview';
const response = await ai.models.generateContent({
model: model_name,
contents: ['Describe these images:', imagePartHigh]
// Global config can still be set, but per-part settings will override
// config: {
// mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
// }
});
console.log(response.text);
}
run();
বিশ্রাম
# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"
# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")
MODEL_ID="gemini-3.1-pro-preview"
echo '{
"contents": [{
"parts": [
{"text": "Describe these images:"},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "'"$BASE64_IMAGE1"'",
},
"media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
}
]
}]
}' > request.json
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d @request.json
বৈশ্বিক গণমাধ্যম রেজোলিউশন
আপনি GenerationConfig ব্যবহার করে একটি অনুরোধের সমস্ত মিডিয়া পার্টের জন্য একটি ডিফল্ট রেজোলিউশন সেট করতে পারেন। এটি সমস্ত মাল্টিমোডাল মডেল দ্বারা সমর্থিত। যদি কোনো অনুরোধে গ্লোবাল এবং পার্ট-ভিত্তিক উভয় সেটিংস অন্তর্ভুক্ত থাকে, তবে সেই নির্দিষ্ট আইটেমটির জন্য পার্ট-ভিত্তিক সেটিংটি অগ্রাধিকার পাবে।
পাইথন
from google import genai
from google.genai import types
client = genai.Client()
# Prepare standard image part
with open('image.jpg', 'rb') as f:
image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')
# Set global configuration
config = types.GenerateContentConfig(
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
response = client.models.generate_content(
model='gemini-3-flash-preview',
contents=["Describe this image:", image_part],
config=config
)
print(response.text)
জাভাস্ক্রিপ্ট
import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';
const ai = new GoogleGenAI({ });
async function run() {
// ... (Image loading logic) ...
const response = await ai.models.generateContent({
model: 'gemini-3-flash-preview',
contents: ["Describe this image:", imagePart],
config: {
mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
}
});
console.log(response.text);
}
run();
বিশ্রাম
# ... (Base64 encoding logic) ...
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [...],
"generation_config": {
"media_resolution": "MEDIA_RESOLUTION_HIGH"
}
}'
উপলব্ধ রেজোলিউশন মান
জেমিনি এপিআই মিডিয়া রেজোলিউশনের জন্য নিম্নলিখিত স্তরগুলি নির্ধারণ করে:
-
MEDIA_RESOLUTION_UNSPECIFIED: এটি ডিফল্ট সেটিং। জেমিনি ৩ এবং এর আগের জেমিনি মডেলগুলোর মধ্যে এই লেভেলের টোকেন সংখ্যা উল্লেখযোগ্যভাবে ভিন্ন হয়। -
MEDIA_RESOLUTION_LOW: কম টোকেন সংখ্যার কারণে প্রসেসিং দ্রুত হয় এবং খরচ কম পড়ে, কিন্তু বিস্তারিত তথ্য কম থাকে। -
MEDIA_RESOLUTION_MEDIUM: বিশদ বিবরণ, খরচ এবং লেটেন্সির মধ্যে একটি ভারসাম্য। -
MEDIA_RESOLUTION_HIGH): উচ্চতর টোকেন সংখ্যা, যা মডেলকে কাজ করার জন্য আরও বিশদ তথ্য সরবরাহ করে, তবে এর ফলে লেটেন্সি এবং খরচ বৃদ্ধি পায়। -
MEDIA_RESOLUTION_ULTRA_HIGH(শুধুমাত্র প্রতি অংশের জন্য): সর্বোচ্চ টোকেন সংখ্যা, যা কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে প্রয়োজন।
উল্লেখ্য যে, বেশিরভাগ ব্যবহারের ক্ষেত্রে MEDIA_RESOLUTION_HIGH সর্বোত্তম পারফরম্যান্স প্রদান করে।
এই প্রতিটি স্তরের জন্য তৈরি হওয়া টোকেনের সঠিক সংখ্যা মিডিয়ার ধরন (ছবি, ভিডিও, পিডিএফ) এবং মডেল সংস্করণ উভয়ের উপরই নির্ভর করে।
টোকেন সংখ্যা
নিচের সারণিগুলোতে প্রতিটি মডেল ফ্যামিলির জন্য media_resolution প্রতিটি মান এবং মিডিয়া টাইপের আনুমানিক টোকেন সংখ্যার সারসংক্ষেপ দেওয়া হয়েছে।
জেমিনি ৩ মডেল
| মিডিয়ারেজোলিউশন | ছবি | ভিডিও | পিডিএফ |
MEDIA_RESOLUTION_UNSPECIFIED (ডিফল্ট) | ১১২০ | ৭০ | ৫৬০ |
MEDIA_RESOLUTION_LOW | ২৮০ | ৭০ | ২৮০ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_MEDIUM | ৫৬০ | ৭০ | ৫৬০ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_HIGH | ১১২০ | ২৮০ | ১১২০ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_ULTRA_HIGH | ২২৪০ | প্রযোজ্য নয় | প্রযোজ্য নয় |
জেমিনি ২.৫ মডেল
| মিডিয়ারেজোলিউশন | ছবি | ভিডিও | পিডিএফ (স্ক্যান করা) | পিডিএফ (নেটিভ) |
MEDIA_RESOLUTION_UNSPECIFIED (ডিফল্ট) | ২৫৬ + প্যান ও স্ক্যান (~২০৪৮) | ২৫৬ | ২৫৬ + ওসিআর | ২৫৬ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_LOW | ৬৪ | ৬৪ | ৬৪ + ওসিআর | ৬৪ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_MEDIUM | ২৫৬ | ২৫৬ | ২৫৬ + ওসিআর | ২৫৬ + স্থানীয় পাঠ্য |
MEDIA_RESOLUTION_HIGH | ২৫৬ + প্যান ও স্ক্যান | ২৫৬ | ২৫৬ + ওসিআর | ২৫৬ + স্থানীয় পাঠ্য |
সঠিক রেজোলিউশন বেছে নেওয়া
- ডিফল্ট (
UNSPECIFIED): ডিফল্ট দিয়ে শুরু করুন। এটি সর্বাধিক প্রচলিত ব্যবহারের ক্ষেত্রে গুণমান, লেটেন্সি এবং খরচের একটি ভালো ভারসাম্য বজায় রাখার জন্য টিউন করা হয়েছে। -
LOW: এমন পরিস্থিতিতে ব্যবহার করুন যেখানে খরচ এবং লেটেন্সি সবচেয়ে গুরুত্বপূর্ণ, এবং সূক্ষ্ম বিবরণ ততটা জরুরি নয়। -
MEDIUM/HIGH: যখন কোনো কাজের জন্য মিডিয়ার ভেতরের সূক্ষ্ম বিবরণ বোঝার প্রয়োজন হয়, তখন রেজোলিউশন বাড়ান। জটিল দৃশ্যগত বিশ্লেষণ, চার্ট পড়া বা দুর্বোধ্য নথি বোঝার জন্য প্রায়শই এটির প্রয়োজন হয়। -
ULTRA HIGH- শুধুমাত্র প্রতিটি অংশের জন্য আলাদাভাবে সেট করা যায়। কম্পিউটার ব্যবহারের মতো নির্দিষ্ট ক্ষেত্রে অথবা যেখানে পরীক্ষায়HIGHচেয়ে সুস্পষ্ট উন্নতি দেখা যায়, সেখানে এটি ব্যবহারের পরামর্শ দেওয়া হয়। - অংশ-ভিত্তিক নিয়ন্ত্রণ (জেমিনি ৩): টোকেনের ব্যবহার অপ্টিমাইজ করে। উদাহরণস্বরূপ, একাধিক ছবিযুক্ত কোনো প্রম্পটে, জটিল ডায়াগ্রামের জন্য
HIGHএবং অপেক্ষাকৃত সহজ প্রাসঙ্গিক ছবির জন্যLOWবাMEDIUMব্যবহার করুন।
প্রস্তাবিত সেটিংস
নিম্নলিখিত তালিকায় প্রতিটি সমর্থিত মিডিয়া টাইপের জন্য প্রস্তাবিত মিডিয়া রেজোলিউশন সেটিংস দেওয়া হলো।
| মিডিয়া টাইপ | প্রস্তাবিত সেটিং | সর্বোচ্চ টোকেন | ব্যবহারের নির্দেশিকা |
| ছবি | MEDIA_RESOLUTION_HIGH | ১১২০ | সর্বোচ্চ গুণমান নিশ্চিত করতে অধিকাংশ চিত্র বিশ্লেষণ কাজের জন্য এটি সুপারিশ করা হয়। |
| পিডিএফ | MEDIA_RESOLUTION_MEDIUM | ৫৬০ | ডকুমেন্ট বোঝার জন্য সর্বোত্তম; এর গুণমান সাধারণত medium স্থির হয়ে যায়। সাধারণ ডকুমেন্টের ক্ষেত্রে, স্তর বাড়িয়ে high করলে OCR ফলাফলের উন্নতি খুব কমই হয়। |
| ভিডিও (সাধারণ) | MEDIA_RESOLUTION_LOW (অথবা MEDIA_RESOLUTION_MEDIUM ) | ৭০ (প্রতি ফ্রেমে) | দ্রষ্টব্য: ভিডিওর ক্ষেত্রে, কনটেক্সট ব্যবহার অপ্টিমাইজ করার জন্য low এবং medium সেটিংসকে একইভাবে (৭০ টোকেন) বিবেচনা করা হয়। বেশিরভাগ অ্যাকশন শনাক্তকরণ এবং বর্ণনার কাজের জন্য এটি যথেষ্ট। |
| ভিডিও (লেখা-বহুল) | MEDIA_RESOLUTION_HIGH | ২৮০ (প্রতি ফ্রেমে) | শুধুমাত্র তখনই প্রয়োজন হয়, যখন ব্যবহারের ক্ষেত্রে ঘন পাঠ্য (OCR) অথবা ভিডিও ফ্রেমের মধ্যে থাকা সূক্ষ্ম বিবরণ পড়ার প্রয়োজন হয়। |
গুণমান, ল্যাটেন্সি এবং খরচের মধ্যে সর্বোত্তম ভারসাম্য খুঁজে পেতে আপনার নির্দিষ্ট অ্যাপ্লিকেশনে বিভিন্ন রেজোলিউশন সেটিংসের প্রভাব সর্বদা পরীক্ষা ও মূল্যায়ন করুন।
সংস্করণ সামঞ্জস্যের সারাংশ
- মিডিয়া ইনপুট সমর্থনকারী সকল মডেলের জন্য
MediaResolutionenum-টি উপলব্ধ। - জেমিনি ৩ মডেল এবং এর পূর্ববর্তী সংস্করণগুলোর মধ্যে প্রতিটি এনাম লেভেলের সাথে যুক্ত টোকেন সংখ্যা ভিন্ন হয় ।
- স্বতন্ত্র
Partঅবজেক্টেmedia_resolutionসেট করার সুবিধাটি শুধুমাত্র জেমিনি ৩ মডেলের ক্ষেত্রেই প্রযোজ্য ।
পরবর্তী পদক্ষেপ
- ইমেজ আন্ডারস্ট্যান্ডিং , ভিডিও আন্ডারস্ট্যান্ডিং এবং ডকুমেন্ট আন্ডারস্ট্যান্ডিং গাইডগুলোতে জেমিনি এপিআই-এর মাল্টিমোডাল সক্ষমতা সম্পর্কে আরও জানুন।