Resolução de mídia

O parâmetro media_resolution controla como a API Gemini processa entradas de mídia, como imagens, vídeos e documentos PDF, determinando o número máximo de tokens alocados para entradas de mídia, permitindo que você equilibre a qualidade da resposta com a latência e o custo. Para diferentes configurações, valores padrão e como eles correspondem a tokens, consulte a seção Contagens de tokens.

É possível configurar a resolução de mídia para objetos de mídia individuais (itens de conteúdo) na solicitação (somente no Gemini 3).

Resolução de mídia por item de conteúdo (somente no Gemini 3)

O Gemini 3 permite definir a resolução de mídia para objetos de mídia individuais na solicitação, oferecendo otimização refinada do uso de tokens. É possível misturar níveis de resolução em uma única solicitação. Por exemplo, usando alta resolução para um diagrama complexo e baixa resolução para uma imagem contextual simples.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Valores de resolução disponíveis

A API Gemini define os seguintes níveis de resolução de mídia:

  • unspecified: a configuração padrão. A contagem de tokens para esse nível varia significativamente entre o Gemini 3 e modelos anteriores.
  • low: contagem de tokens mais baixa, resultando em processamento mais rápido e custo menor, mas com menos detalhes.
  • medium: um equilíbrio entre detalhes, custo e latência.
  • high: contagem de tokens mais alta, fornecendo mais detalhes para o modelo trabalhar, à custa de maior latência e custo.
  • ultra_high (somente por item de conteúdo): contagem de tokens mais alta, necessária para casos de uso específicos, como uso de computador.

O high oferece o desempenho ideal para a maioria dos casos de uso.

O número exato de tokens gerados para cada um desses níveis depende do tipo de mídia (imagem, vídeo, PDF) e da versão do modelo.

Contagens de tokens

As tabelas abaixo resumem as contagens de tokens aproximadas para cada valor media_resolution e tipo de mídia por família de modelos.

Modelos do Gemini 3

MediaResolution Imagem Vídeo PDF
unspecified (padrão) 1120 70 560
low 280 70 280 + texto nativo
medium 560 70 560 + texto nativo
high 1120 280 1120 + texto nativo
ultra_high 2240 N/A N/A

Como escolher a resolução certa

  • Padrão (unspecified): comece com o padrão. Ele é ajustado para um bom equilíbrio de qualidade, latência e custo para a maioria dos casos de uso comuns.
  • low: use para cenários em que o custo e a latência são fundamentais e detalhes refinados são menos importantes.
  • medium / high: aumente a resolução quando a tarefa exigir a compreensão de detalhes complexos na mídia. Isso geralmente é necessário para análises visuais complexas, leitura de gráficos ou compreensão de documentos densos.
  • ultra_high : disponível apenas para a configuração por item de conteúdo. Recomendado para casos de uso específicos, como uso de computador ou quando os testes mostram uma melhoria clara em relação a high.
  • Controle por item de conteúdo (Gemini 3) : otimiza o uso de tokens. Por exemplo, em um comando com várias imagens, use high para um diagrama complexo e low ou medium para imagens contextuais mais simples.

Configurações recomendadas

A lista a seguir mostra as configurações de resolução de mídia recomendadas para cada tipo de mídia compatível.

Tipo de mídia Configuração recomendada Tokens máximos Orientação de uso
Imagens high 1120 Recomendado para a maioria das tarefas de análise de imagens para garantir a máxima qualidade.
PDFs medium 560 Ideal para compreensão de documentos. A qualidade normalmente satura em medium. Aumentar para high raramente melhora os resultados do OCR para documentos padrão.
Vídeo (geral) low (ou medium) 70 (por frame) Observação:para vídeos, as configurações low e medium são tratadas de forma idêntica (70 tokens) para otimizar o uso do contexto. Isso é suficiente para a maioria das tarefas de reconhecimento e descrição de ações.
Vídeo (com muito texto) high 280 (por frame) Necessário apenas quando o caso de uso envolve a leitura de texto denso (OCR) ou pequenos detalhes em frames de vídeo.

Sempre teste e avalie o impacto de diferentes configurações de resolução no aplicativo para encontrar o melhor equilíbrio entre qualidade, latência e custo.

Resumo da compatibilidade de versões

  • A definição da resolution em itens de conteúdo individuais é exclusiva dos modelos do Gemini 3.

Próximas etapas