Rezolucioni i medias
Parametri media_resolution kontrollon mënyrën se si API Gemini përpunon të dhënat e dhëna mediatike si imazhe, video dhe dokumente PDF duke përcaktuar numrin maksimal të tokenëve të alokuar për të dhënat e dhëna mediatike, duke ju lejuar të balanconi cilësinë e përgjigjes kundrejt vonesës dhe kostos. Për cilësime të ndryshme, vlera të paracaktuara dhe se si ato korrespondojnë me tokenët, shihni seksionin Numërimi i Tokenëve .
Ju mund të konfiguroni rezolucionin e medias për objektet individuale të medias (artikujt e përmbajtjes) brenda kërkesës suaj (vetëm Gemini 3).
Rezolucioni i medias për artikull sipas përmbajtjes (vetëm Gemini 3)
Gemini 3 ju lejon të vendosni rezolucionin e medias për objektet individuale të medias brenda kërkesës suaj, duke ofruar optimizim të detajuar të përdorimit të token-ave. Mund të kombinoni nivelet e rezolucionit në një kërkesë të vetme. Për shembull, duke përdorur rezolucion të lartë për një diagram kompleks dhe rezolucion të ulët për një imazh të thjeshtë kontekstual.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
PUSHTIM
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Vlerat e rezolucionit të disponueshme
API Gemini përcakton nivelet e mëposhtme për rezolucionin e medias:
-
unspecified: Cilësimi parazgjedhur. Numri i tokenëve për këtë nivel ndryshon ndjeshëm midis modeleve Gemini 3 dhe modeleve të mëparshme Gemini. -
low: Numër më i ulët i tokenëve, duke rezultuar në përpunim më të shpejtë dhe kosto më të ulët, por me më pak detaje. -
medium: Një ekuilibër midis detajeve, kostos dhe latencës. -
high: Numër më i lartë i tokenëve, duke ofruar më shumë detaje me të cilat modeli mund të funksionojë, në kurriz të rritjes së latencës dhe kostos. -
ultra_high(Vetëm për artikull përmbajtjeje): Numri më i lartë i tokenëve, i kërkuar për raste specifike përdorimi, siç është përdorimi i kompjuterit .
Vini re se high siguron performancën optimale për shumicën e rasteve të përdorimit.
Numri i saktë i tokenëve të gjeneruar për secilin prej këtyre niveleve varet si nga lloji i medias (Imazh, Video, PDF) ashtu edhe nga versioni i modelit .
Numërimi i tokenëve
Tabelat më poshtë përmbledhin numërimin e përafërt të tokenëve për secilën vlerë të media_resolution dhe llojin e medias për familje modelesh.
Modelet Gemini 3
| Rezolucioni i Medias | Imazh | Video | |
|---|---|---|---|
unspecified (Parazgjedhur) | 1120 | 70 | 560 |
low | 280 | 70 | 280+ Tekst vendas |
medium | 560 | 70 | 560+ Tekst vendas |
high | 1120 | 280 | 1120 + Tekst vendas |
ultra_high | 2240 | N/A | N/A |
Zgjedhja e rezolucionit të duhur
- Parazgjedhur (
unspecified): Filloni me parazgjedhjen. Është akorduar për një ekuilibër të mirë të cilësisë, vonesës dhe kostos për shumicën e rasteve të përdorimit të zakonshëm. -
low: Përdoret për skenarë ku kostoja dhe vonesa janë parësore, dhe detajet e imëta janë më pak kritike. -
medium/high: Rrit rezolucionin kur detyra kërkon të kuptuarit e detajeve të ndërlikuara brenda medias. Kjo shpesh nevojitet për analiza vizuale komplekse, lexim grafikësh ose kuptim të dendur të dokumenteve. -
ultra_high- I disponueshëm vetëm për cilësimin për artikull përmbajtjeje. Rekomandohet për raste specifike përdorimi, siç është përdorimi i kompjuterit ose kur testimi tregon një përmirësim të qartë mbihigh. - Kontrolli për artikull sipas përmbajtjes (Gemini 3): Optimizon përdorimin e token-ave. Për shembull, në një kërkesë me imazhe të shumta, përdorni
highpër një diagram kompleks dhelowosemediumpër imazhe më të thjeshta kontekstuale.
Cilësimet e rekomanduara
Më poshtë renditen cilësimet e rekomanduara të rezolucionit të medias për secilin lloj mediaje të mbështetur.
| Lloji i medias | Cilësimi i rekomanduar | Maksimumi i Tokenëve | Udhëzime përdorimi |
|---|---|---|---|
| Imazhe | high | 1120 | Rekomandohet për shumicën e detyrave të analizës së imazheve për të siguruar cilësinë maksimale. |
| PDF-të | medium | 560 | Optimale për të kuptuar dokumentin; cilësia zakonisht ngopet në medium . Rritja në high rrallë përmirëson rezultatet e OCR për dokumentet standarde. |
| Video (e Përgjithshme) | low (ose medium ) | 70 (për kornizë) | Shënim: Për videon, cilësimet low dhe medium trajtohen në mënyrë identike (70 tokena) për të optimizuar përdorimin e kontekstit. Kjo është e mjaftueshme për shumicën e detyrave të njohjes dhe përshkrimit të veprimeve. |
| Video (me shumë tekst) | high | 280 (për kornizë) | E nevojshme vetëm kur rasti i përdorimit përfshin leximin e tekstit të dendur (OCR) ose detajeve të vogla brenda kornizave të videos. |
Gjithmonë testoni dhe vlerësoni ndikimin e cilësimeve të ndryshme të rezolucionit në aplikacionin tuaj për të gjetur kompromisin më të mirë midis cilësisë, vonesës dhe kostos.
Përmbledhje e përputhshmërisë së versioneve
- Vendosja e
resolutionnë artikujt individualë të përmbajtjes është ekskluzive për modelet Gemini 3 .
Hapat e ardhshëm
- Mësoni më shumë rreth aftësive multimodale të Gemini API në udhëzuesit për të kuptuar imazhin , të kuptuarit e videos dhe të kuptuarit e dokumentit .