Rezolucioni i medias

Parametri media_resolution kontrollon mënyrën se si API Gemini përpunon të dhënat e dhëna mediatike si imazhe, video dhe dokumente PDF duke përcaktuar numrin maksimal të tokenëve të alokuar për të dhënat e dhëna mediatike, duke ju lejuar të balanconi cilësinë e përgjigjes kundrejt vonesës dhe kostos. Për cilësime të ndryshme, vlera të paracaktuara dhe se si ato korrespondojnë me tokenët, shihni seksionin Numërimi i Tokenëve .

Ju mund ta konfiguroni rezolucionin e medias në dy mënyra:

  • Për pjesë (vetëm Binjakët 3)

  • Globalisht për një kërkesë të tërë generateContent (të gjitha modelet multimodale)

Rezolucioni i medias për pjesë (vetëm Gemini 3)

Gemini 3 ju lejon të vendosni rezolucionin e medias për objektet individuale të medias brenda kërkesës suaj, duke ofruar optimizim të detajuar të përdorimit të token-ave. Ju mund të kombinoni nivelet e rezolucionit në një kërkesë të vetme. Për shembull, duke përdorur rezolucion të lartë për një diagram kompleks dhe rezolucion të ulët për një imazh të thjeshtë kontekstual. Ky cilësim mbivendos çdo konfigurim global për një pjesë specifike. Për cilësimet fillestare, shihni seksionin Numërimi i token-ave .

Python

from google import genai
from google.genai import types

# The media_resolution parameter for parts is currently only available in the v1alpha API version. (experimental)
client = genai.Client(
  http_options={
      'api_version': 'v1alpha',
  }
)

# Replace with your image data
with open('path/to/image1.jpg', 'rb') as f:
    image_bytes_1 = f.read()

# Create parts with different resolutions
image_part_high = types.Part.from_bytes(
    data=image_bytes_1,
    mime_type='image/jpeg',
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

model_name = 'gemini-3-pro-preview'

response = client.models.generate_content(
    model=model_name,
    contents=["Describe these images:", image_part_high]
)
print(response.text)

Javascript

// Example: Setting per-part media resolution in JavaScript
import { GoogleGenAI, MediaResolution, Part } from '@google/genai';
import * as fs from 'fs';
import { Buffer } from 'buffer'; // Node.js

const ai = new GoogleGenAI({ httpOptions: { apiVersion: 'v1alpha' } });

// Helper function to convert local file to a Part object
function fileToGenerativePart(path, mimeType, mediaResolution) {
    return {
        inlineData: { data: Buffer.from(fs.readFileSync(path)).toString('base64'), mimeType },
        mediaResolution: { 'level': mediaResolution }
    };
}

async function run() {
    // Create parts with different resolutions
    const imagePartHigh = fileToGenerativePart('img.png', 'image/png', Part.MediaResolutionLevel.MEDIA_RESOLUTION_HIGH);
    const model_name = 'gemini-3-pro-preview';
    const response = await ai.models.generateContent({
        model: model_name,
        contents: ['Describe these images:', imagePartHigh]
        // Global config can still be set, but per-part settings will override
        // config: {
        //   mediaResolution: MediaResolution.MEDIA_RESOLUTION_MEDIUM
        // }
    });
    console.log(response.text);
}
run();

PUSHTIM

# Replace with paths to your images
IMAGE_PATH="path/to/image.jpg"

# Base64 encode the images
BASE64_IMAGE1=$(base64 -w 0 "$IMAGE_PATH")

MODEL_ID="gemini-3-pro-preview"

echo '{
    "contents": [{
      "parts": [
        {"text": "Describe these images:"},
        {
          "inline_data": {
            "mime_type": "image/jpeg",
            "data": "'"$BASE64_IMAGE1"'",
          },
          "media_resolution": {"level": "MEDIA_RESOLUTION_HIGH"}
        }
      ]
    }]
  }' > request.json

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1alpha/models/${MODEL_ID}:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d @request.json

Rezolucioni global i medias

Mund të caktoni një rezolucion të parazgjedhur për të gjitha pjesët e medias në një kërkesë duke përdorur GenerationConfig . Kjo mbështetet nga të gjitha modelet multimodale. Nëse një kërkesë përfshin cilësime globale dhe për secilën pjesë , cilësimi për secilën pjesë ka përparësi për atë artikull specifik.

Python

from google import genai
from google.genai import types

client = genai.Client()

# Prepare standard image part
with open('image.jpg', 'rb') as f:
    image_bytes = f.read()
image_part = types.Part.from_bytes(data=image_bytes, mime_type='image/jpeg')

# Set global configuration
config = types.GenerateContentConfig(
    media_resolution=types.MediaResolution.MEDIA_RESOLUTION_HIGH
)

response = client.models.generate_content(
    model='gemini-2.5-flash',
    contents=["Describe this image:", image_part],
    config=config
)
print(response.text)

Javascript

import { GoogleGenAI, MediaResolution } from '@google/genai';
import * as fs from 'fs';

const ai = new GoogleGenAI({ });

async function run() {
   // ... (Image loading logic) ...

   const response = await ai.models.generateContent({
      model: 'gemini-2.5-flash',
      contents: ["Describe this image:", imagePart],
      config: {
         mediaResolution: MediaResolution.MEDIA_RESOLUTION_HIGH
      }
   });
   console.log(response.text);
}
run();

PUSHTIM

# ... (Base64 encoding logic) ...

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [...],
    "generation_config": {
      "media_resolution": "MEDIA_RESOLUTION_HIGH"
    }
  }'

Vlerat e rezolucionit të disponueshme

API Gemini përcakton nivelet e mëposhtme për rezolucionin e medias:

  • MEDIA_RESOLUTION_UNSPECIFIED : Cilësimi parazgjedhur. Numri i tokenëve për këtë nivel ndryshon ndjeshëm midis modeleve Gemini 3 dhe modeleve të mëparshme Gemini.
  • MEDIA_RESOLUTION_LOW : Numër më i ulët i tokenëve, duke rezultuar në përpunim më të shpejtë dhe kosto më të ulët, por me më pak detaje.
  • MEDIA_RESOLUTION_MEDIUM : Një ekuilibër midis detajeve, kostos dhe vonesës.
  • MEDIA_RESOLUTION_HIGH : Numër më i lartë i tokenëve, duke ofruar më shumë detaje me të cilat modeli mund të funksionojë, në kurriz të rritjes së latencës dhe kostos.
  • ( Së shpejti ) MEDIA_RESOLUTION_ULTRA_HIGH : Numri më i lartë i tokenëve të kërkuar për raste specifike përdorimi, siç është përdorimi i kompjuterit.

Numri i saktë i tokenëve të gjeneruar për secilin prej këtyre niveleve varet si nga lloji i medias (Imazh, Video, PDF) ashtu edhe nga versioni i modelit .

Numërimi i tokenëve

Tabelat më poshtë përmbledhin numërimin e përafërt të tokenëve për secilën vlerë të media_resolution dhe llojin e medias për familje modelesh.

Modelet Binjakë 3

Rezolucioni i Medias Imazh Video PDF
MEDIA_RESOLUTION_UNSPECIFIED (Parazgjedhur) 1120 70 560
MEDIA_RESOLUTION_LOW 280 70 280+ Tekst vendas
MEDIA_RESOLUTION_MEDIUM 560 70 560+ Tekst vendas
MEDIA_RESOLUTION_HIGH 1120 280 1120 + Tekst vendas

Modelet Gemini 2.5

Rezolucioni i Medias Imazh Video PDF (i skanuar) PDF (Native)
MEDIA_RESOLUTION_UNSPECIFIED (Parazgjedhur) 256 + Panoramë & Skanim (~2048) 256 256 + OCR 256 + Tekst vendas
MEDIA_RESOLUTION_LOW 64 64 64 + OCR 64+ Tekst vendas
MEDIA_RESOLUTION_MEDIUM 256 256 256 + OCR 256 + Tekst vendas
MEDIA_RESOLUTION_HIGH 256 + Panoramë & Skanim 256 256 + OCR 256 + Tekst vendas

Zgjedhja e rezolucionit të duhur

  • Parazgjedhja ( UNSPECIFIED ): Filloni me parazgjedhjen. Është akorduar për një ekuilibër të mirë të cilësisë, vonesës dhe kostos për shumicën e rasteve të përdorimit të zakonshëm.
  • LOW : Përdoret për skenarë ku kostoja dhe vonesa janë parësore, dhe detajet e imëta janë më pak kritike.
  • MEDIUM / HIGH : Rrit rezolucionin kur detyra kërkon të kuptuarit e detajeve të ndërlikuara brenda medias. Kjo shpesh nevojitet për analiza vizuale komplekse, lexim grafikësh ose kuptim të dendur të dokumenteve.
  • Kontroll për çdo pjesë (Gemini 3): Përdoreni këtë për të optimizuar përdorimin e token-ave. Për shembull, në një kërkesë me imazhe të shumëfishta, përdorni HIGH për një diagram kompleks dhe LOW ose MEDIUM për imazhe më të thjeshta kontekstuale.

Cilësimet e rekomanduara

Më poshtë renditen cilësimet e rekomanduara të rezolucionit të medias për secilin lloj mediaje të mbështetur.

Lloji i medias Cilësimi i rekomanduar Maksimumi i Tokenëve Udhëzime përdorimi
Imazhe MEDIA_RESOLUTION_HIGH 1120 Rekomandohet për shumicën e detyrave të analizës së imazheve për të siguruar cilësinë maksimale.
PDF-të MEDIA_RESOLUTION_MEDIUM 560 Optimale për të kuptuar dokumentin; cilësia zakonisht ngopet në medium . Rritja në high rrallë përmirëson rezultatet e OCR për dokumentet standarde.
Video (e Përgjithshme) MEDIA_RESOLUTION_LOW (ose MEDIA_RESOLUTION_MEDIUM ) 70 (për kornizë) Shënim: Për videon, cilësimet low dhe medium trajtohen në mënyrë identike (70 tokena) për të optimizuar përdorimin e kontekstit. Kjo është e mjaftueshme për shumicën e detyrave të njohjes dhe përshkrimit të veprimeve.
Video (me shumë tekst) MEDIA_RESOLUTION_HIGH 280 (për kornizë) E nevojshme vetëm kur rasti i përdorimit përfshin leximin e tekstit të dendur (OCR) ose detajeve të vogla brenda kornizave të videos.

Gjithmonë testoni dhe vlerësoni ndikimin e cilësimeve të ndryshme të rezolucionit në aplikacionin tuaj specifik për të gjetur kompromisin më të mirë midis cilësisë, vonesës dhe kostos.

Përmbledhje e përputhshmërisë së versioneve

  • Numërimi i MediaResolution është i disponueshëm për të gjitha modelet që mbështesin hyrjen e medias.
  • Numërimi i tokenëve të lidhur me secilin nivel numërimi ndryshon midis modeleve Gemini 3 dhe versioneve të mëparshme Gemini.
  • Vendosja media_resolution në objektet individuale Part është ekskluzive për modelet Gemini 3 .

Hapat e ardhshëm