Parametri media_resolution kontrollon mënyrën se si API Gemini përpunon të dhënat e dhëna mediatike si imazhe, video dhe dokumente PDF duke përcaktuar numrin maksimal të tokenëve të alokuar për të dhënat e dhëna mediatike, duke ju lejuar të balanconi cilësinë e përgjigjes kundrejt vonesës dhe kostos. Për cilësime të ndryshme, vlera të paracaktuara dhe se si ato korrespondojnë me tokenët, shihni seksionin Numërimi i Tokenëve .
Ju mund ta konfiguroni rezolucionin e medias në dy mënyra:
Për pjesë (vetëm Binjakët 3)
Globalisht për një kërkesë të tërë
generateContent(të gjitha modelet multimodale)
Rezolucioni i medias për pjesë (vetëm Gemini 3)
Gemini 3 ju lejon të vendosni rezolucionin e medias për objektet individuale të medias brenda kërkesës suaj, duke ofruar optimizim të detajuar të përdorimit të token-ave. Ju mund të kombinoni nivelet e rezolucionit në një kërkesë të vetme. Për shembull, duke përdorur rezolucion të lartë për një diagram kompleks dhe rezolucion të ulët për një imazh të thjeshtë kontekstual. Ky cilësim mbivendos çdo konfigurim global për një pjesë specifike. Për cilësimet fillestare, shihni seksionin Numërimi i token-ave .
Python
from google import genai
from google.genai import types
# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
http_options={
'api_version': 'v1alpha',
}
)
# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
image_bytes_1 = f.read()
# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
data=image_bytes_1,
mime_type='image/jpeg',
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
model_name = 'gemini-3-pro-preview'
response = client.models.generate_content(
model=model_name,
contents=["Describe these images:", image_part_high]
)
print(response.text)
Javascript
// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js
const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });
// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
return {
inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
mediaResolution: { 'level': mediaResolution }
};
}
async function run() {
// Create parts with different resolutions
const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
const model_name = 'gemini-3-pro-preview';
const response = await ai.models.generateContent({
model: model_name,
contents: ['Describe these images:', imagePartHigh]
// Global config can still be set, but per-part settings will override
// config: {
// mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
// }
});
console.log(response.text);
}
run();
PUSHTIM
# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"
# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")
MODEL_ID="gemini-3-pro-preview"
echo '{
"contents": [{
"parts": [
{"text": "Describe these images:"},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "'"$BASE64_IMAGE1"'",
},
"media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
}
]
}]
}' > request.json
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d @request.json
Rezolucioni global i medias
Mund të caktoni një rezolucion të parazgjedhur për të gjitha pjesët e medias në një kërkesë duke përdorur GenerationConfig . Kjo mbështetet nga të gjitha modelet multimodale. Nëse një kërkesë përfshin cilësime globale dhe për secilën pjesë , cilësimi për secilën pjesë ka përparësi për atë artikull specifik.
Python
from google import genai
from google.genai import types
client = genai.Client()
# Prepare standard image part
with open('image.jpg', 'rb') as f:
image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')
# Set global configuration
config = types.GenerateContentConfig(
media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)
response = client.models.generate_content(
model='gemini-2.5-flash',
contents=["Describe this image:", image_part],
config=config
)
print(response.text)
Javascript
import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';
const ai = new GoogleGenAI({ });
async function run() {
// ... (Image loading logic) ...
const response = await ai.models.generateContent({
model: 'gemini-2.5-flash',
contents: ["Describe this image:", imagePart],
config: {
mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
}
});
console.log(response.text);
}
run();
PUSHTIM
# ... (Base64 encoding logic) ...
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [...],
"generation_config": {
"media_resolution": "MEDIA_RESOLUTION_HIGH"
}
}'
Vlerat e rezolucionit të disponueshme
API Gemini përcakton nivelet e mëposhtme për rezolucionin e medias:
-
MEDIA_RESOLUTION_UNSPECIFIED: Cilësimi parazgjedhur. Numri i tokenëve për këtë nivel ndryshon ndjeshëm midis modeleve Gemini 3 dhe modeleve të mëparshme Gemini. -
MEDIA_RESOLUTION_LOW: Numër më i ulët i tokenëve, duke rezultuar në përpunim më të shpejtë dhe kosto më të ulët, por me më pak detaje. -
MEDIA_RESOLUTION_MEDIUM: Një ekuilibër midis detajeve, kostos dhe vonesës. -
MEDIA_RESOLUTION_HIGH: Numër më i lartë i tokenëve, duke ofruar më shumë detaje me të cilat modeli mund të funksionojë, në kurriz të rritjes së latencës dhe kostos. - ( Së shpejti )
MEDIA_RESOLUTION_ULTRA_HIGH: Numri më i lartë i tokenëve të kërkuar për raste specifike përdorimi, siç është përdorimi i kompjuterit.
Numri i saktë i tokenëve të gjeneruar për secilin prej këtyre niveleve varet si nga lloji i medias (Imazh, Video, PDF) ashtu edhe nga versioni i modelit .
Numërimi i tokenëve
Tabelat më poshtë përmbledhin numërimin e përafërt të tokenëve për secilën vlerë të media_resolution dhe llojin e medias për familje modelesh.
Modelet Binjakë 3
| Rezolucioni i Medias | Imazh | Video | |
MEDIA_RESOLUTION_UNSPECIFIED (Parazgjedhur) | 1120 | 70 | 560 |
MEDIA_RESOLUTION_LOW | 280 | 70 | 280+ Tekst vendas |
MEDIA_RESOLUTION_MEDIUM | 560 | 70 | 560+ Tekst vendas |
MEDIA_RESOLUTION_HIGH | 1120 | 280 | 1120 + Tekst vendas |
Modelet Gemini 2.5
| Rezolucioni i Medias | Imazh | Video | PDF (i skanuar) | PDF (Native) |
MEDIA_RESOLUTION_UNSPECIFIED (Parazgjedhur) | 256 + Panoramë & Skanim (~2048) | 256 | 256 + OCR | 256 + Tekst vendas |
MEDIA_RESOLUTION_LOW | 64 | 64 | 64 + OCR | 64+ Tekst vendas |
MEDIA_RESOLUTION_MEDIUM | 256 | 256 | 256 + OCR | 256 + Tekst vendas |
MEDIA_RESOLUTION_HIGH | 256 + Panoramë & Skanim | 256 | 256 + OCR | 256 + Tekst vendas |
Zgjedhja e rezolucionit të duhur
- Parazgjedhja (
UNSPECIFIED): Filloni me parazgjedhjen. Është akorduar për një ekuilibër të mirë të cilësisë, vonesës dhe kostos për shumicën e rasteve të përdorimit të zakonshëm. -
LOW: Përdoret për skenarë ku kostoja dhe vonesa janë parësore, dhe detajet e imëta janë më pak kritike. -
MEDIUM/HIGH: Rrit rezolucionin kur detyra kërkon të kuptuarit e detajeve të ndërlikuara brenda medias. Kjo shpesh nevojitet për analiza vizuale komplekse, lexim grafikësh ose kuptim të dendur të dokumenteve. - Kontroll për çdo pjesë (Gemini 3): Përdoreni këtë për të optimizuar përdorimin e token-ave. Për shembull, në një kërkesë me imazhe të shumëfishta, përdorni
HIGHpër një diagram kompleks dheLOWoseMEDIUMpër imazhe më të thjeshta kontekstuale.
Cilësimet e rekomanduara
Më poshtë renditen cilësimet e rekomanduara të rezolucionit të medias për secilin lloj mediaje të mbështetur.
| Lloji i medias | Cilësimi i rekomanduar | Maksimumi i Tokenëve | Udhëzime përdorimi |
| Imazhe | MEDIA_RESOLUTION_HIGH | 1120 | Rekomandohet për shumicën e detyrave të analizës së imazheve për të siguruar cilësinë maksimale. |
| PDF-të | MEDIA_RESOLUTION_MEDIUM | 560 | Optimale për të kuptuar dokumentin; cilësia zakonisht ngopet në medium . Rritja në high rrallë përmirëson rezultatet e OCR për dokumentet standarde. |
| Video (e Përgjithshme) | MEDIA_RESOLUTION_LOW (ose MEDIA_RESOLUTION_MEDIUM ) | 70 (për kornizë) | Shënim: Për videon, cilësimet low dhe medium trajtohen në mënyrë identike (70 tokena) për të optimizuar përdorimin e kontekstit. Kjo është e mjaftueshme për shumicën e detyrave të njohjes dhe përshkrimit të veprimeve. |
| Video (me shumë tekst) | MEDIA_RESOLUTION_HIGH | 280 (për kornizë) | E nevojshme vetëm kur rasti i përdorimit përfshin leximin e tekstit të dendur (OCR) ose detajeve të vogla brenda kornizave të videos. |
Gjithmonë testoni dhe vlerësoni ndikimin e cilësimeve të ndryshme të rezolucionit në aplikacionin tuaj specifik për të gjetur kompromisin më të mirë midis cilësisë, vonesës dhe kostos.
Përmbledhje e përputhshmërisë së versioneve
- Numërimi i
MediaResolutionështë i disponueshëm për të gjitha modelet që mbështesin hyrjen e medias. - Numërimi i tokenëve të lidhur me secilin nivel numërimi ndryshon midis modeleve Gemini 3 dhe versioneve të mëparshme Gemini.
- Vendosja
media_resolutionnë objektet individualePartështë ekskluzive për modelet Gemini 3 .
Hapat e ardhshëm
- Mësoni më shumë rreth aftësive multimodale të Gemini API në udhëzuesit për të kuptuar imazhin , të kuptuarit e videos dhe të kuptuarit e dokumentit .