L'API Interactions è ora disponibile a livello generale. Ti consigliamo di utilizzare questa API per accedere a tutti i modelli e a tutte le funzionalità più recenti.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Risoluzione dei contenuti multimediali

Il parametro media_resolution controlla il modo in cui l'API Gemini elabora gli input multimediali come immagini, video e documenti PDF determinando il numero massimo di token allocati per gli input multimediali, consentendoti di bilanciare la qualità della risposta con la latenza e il costo. Per impostazioni diverse, valori predefiniti e corrispondenza con i token, consulta la sezione Conteggi token.

Puoi configurare la risoluzione dei contenuti multimediali per singoli oggetti multimediali (elementi di contenuti) all'interno della richiesta (solo Gemini 3).

Risoluzione dei contenuti multimediali per singolo elemento (solo Gemini 3)

Gemini 3 ti consente di impostare la risoluzione dei contenuti multimediali per i singoli oggetti multimediali all'interno della richiesta, offrendo un'ottimizzazione granulare dell'utilizzo dei token. Puoi combinare livelli di risoluzione in una singola richiesta. Ad esempio, utilizza l'alta risoluzione per un diagramma complesso e la bassa risoluzione per un'immagine contestuale semplice.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mime_type: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mime_type: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.output_text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Valori di risoluzione disponibili

L'API Gemini definisce i seguenti livelli per la risoluzione dei contenuti multimediali:

unspecified: l'impostazione predefinita. Il conteggio dei token per questo livello varia in modo significativo tra Gemini 3 e i modelli Gemini precedenti.
low: numero di token inferiore, con conseguente elaborazione più rapida e costi inferiori, ma con meno dettagli.
medium: un equilibrio tra dettagli, costi e latenza.
high: un numero maggiore di token, che fornisce più dettagli con cui il modello può lavorare, a scapito di una maggiore latenza e costi più elevati.
ultra_high (Solo per elemento di contenuti): conteggio token più alto, necessario per casi d'uso specifici come l'utilizzo del computer.

Tieni presente che high offre un rendimento ottimale per la maggior parte dei casi d'uso.

Il numero esatto di token generati per ciascuno di questi livelli dipende sia dal tipo di media (immagine, video, PDF) sia dalla versione del modello.

Conteggi dei token

Le tabelle riportate di seguito riepilogano i conteggi approssimativi dei token per ogni valore media_resolution e tipo di media per famiglia di modelli.

Modelli Gemini 3

MediaResolution	Immagine	Video	PDF
`unspecified` (valore predefinito)	1120	70	560
`low`	280	70	280 + Native Text
`medium`	560	70	560 + Native Text
`high`	1120	280	1120 + Native Text
`ultra_high`	2240	N/D	N/D

Scegliere la risoluzione giusta

Predefinito (unspecified): inizia con il valore predefinito. È ottimizzato per un buon equilibrio tra qualità, latenza e costi per i casi d'uso più comuni.
low: utilizza questa opzione per gli scenari in cui costi e latenza sono fondamentali e i dettagli granulari sono meno importanti.
medium / high: aumenta la risoluzione quando l'attività richiede di comprendere dettagli complessi all'interno dei contenuti multimediali. Spesso è necessario per analisi visive complesse, lettura di grafici o comprensione di documenti densi.
ultra_high: disponibile solo per l'impostazione per elemento di contenuti. Consigliato per casi d'uso specifici, ad esempio l'utilizzo del computer o quando i test mostrano un miglioramento netto rispetto a high.
Controllo per elemento di contenuti (Gemini 3): ottimizza l'utilizzo dei token. Ad esempio, in un prompt con più immagini, utilizza high per un diagramma complesso e low o medium per immagini contestuali più semplici.

Impostazioni consigliate

Di seguito sono elencate le impostazioni di risoluzione dei contenuti multimediali consigliate per ogni tipo di contenuti multimediali supportato.

Tipo di media	Impostazione consigliata	Token massimi	Indicazioni per l'utilizzo
Immagini	`high`	1120	Consigliato per la maggior parte delle attività di analisi delle immagini per garantire la massima qualità.
PDF	`medium`	560	Ottimale per la comprensione dei documenti; la qualità in genere satura a `medium`. L'aumento a `high` raramente migliora i risultati dell'OCR per i documenti standard.
Video (Generale)	`low` (o `medium`)	70 (per fotogramma)	Nota:per i video, le impostazioni `low` e `medium` vengono trattate in modo identico (70 token) per ottimizzare l'utilizzo del contesto. Questo è sufficiente per la maggior parte delle attività di riconoscimento e descrizione delle azioni.
Video (con molto testo)	`high`	280 (per fotogramma)	Obbligatorio solo quando il caso d'uso prevede la lettura di testo denso (OCR) o piccoli dettagli all'interno dei fotogrammi video.

Esegui sempre test e valuta l'impatto di diverse impostazioni di risoluzione sulla tua applicazione per trovare il miglior compromesso tra qualità, latenza e costi.

Riepilogo della compatibilità delle versioni

L'impostazione di resolution sui singoli elementi di contenuti è esclusiva dei modelli Gemini 3.

Passaggi successivi

Scopri di più sulle funzionalità multimodali dell'API Gemini nelle guide alla comprensione delle immagini, alla comprensione dei video e alla comprensione dei documenti.