Resolução da mídia

O parâmetro media_resolution controla como a API Gemini processa entradas de mídia, como imagens, vídeos e documentos PDF, determinando o número máximo de tokens alocados para entradas de mídia. Assim, é possível equilibrar a qualidade da resposta com a latência e o custo. Para conferir diferentes configurações, valores padrão e como eles correspondem a tokens, consulte a seção Contagem de tokens.

É possível configurar a resolução de mídia para objetos de mídia individuais (itens de conteúdo) na sua solicitação (somente Gemini 3).

Resolução de mídia por item de conteúdo (somente Gemini 3)

Com o Gemini 3, é possível definir a resolução de mídia para objetos individuais na sua solicitação, oferecendo uma otimização refinada do uso de tokens. É possível misturar níveis de resolução em uma única solicitação. Por exemplo, use alta resolução para um diagrama complexo e baixa resolução para uma imagem contextual simples.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mime_type: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3.5-flash",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mime_type: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.output_text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3.5-flash",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Valores de resolução disponíveis

A API Gemini define os seguintes níveis de resolução de mídia:

  • unspecified: a configuração padrão. A contagem de tokens para esse nível varia muito entre o Gemini 3 e os modelos anteriores.
  • low: contagem de tokens menor, resultando em processamento mais rápido e custo menor, mas com menos detalhes.
  • medium: um equilíbrio entre detalhes, custo e latência.
  • high: maior contagem de tokens, fornecendo mais detalhes para o modelo trabalhar, mas com aumento da latência e do custo.
  • ultra_high (apenas por item de conteúdo): contagem de tokens mais alta, necessária para casos de uso específicos, como uso de computador.

O high oferece a performance ideal para a maioria dos casos de uso.

O número exato de tokens gerados para cada um desses níveis depende do tipo de mídia (imagem, vídeo, PDF) e da versão do modelo.

Contagem de tokens

As tabelas abaixo resumem as contagens aproximadas de tokens para cada valor de media_resolution e tipo de mídia por família de modelos.

Modelos do Gemini 3

MediaResolution Imagem Vídeo PDF
unspecified (padrão) 1120 70 560
low 280 70 280 + texto nativo
medium 560 70 560 + texto nativo
high 1120 280 1120 + texto nativo
ultra_high 2240 N/A N/A

Como escolher a resolução certa

  • Padrão (unspecified): comece com o padrão. Ele é ajustado para um bom equilíbrio entre qualidade, latência e custo nos casos de uso mais comuns.
  • low:use em cenários em que o custo e a latência são fundamentais, e o detalhe refinado é menos importante.
  • medium / high:aumente a resolução quando a tarefa exigir a compreensão de detalhes complexos na mídia. Isso geralmente é necessário para análises visuais complexas, leitura de gráficos ou compreensão de documentos densos.
  • ultra_high: disponível apenas para a configuração por item de conteúdo. Recomendado para casos de uso específicos, como uso de computador ou quando o teste mostra uma melhoria clara em relação a high.
  • Controle por item de conteúdo (Gemini 3): otimiza o uso de tokens. Por exemplo, em um comando com várias imagens, use high para um diagrama complexo e low ou medium para imagens contextuais mais simples.

Configurações recomendadas

Confira abaixo as configurações de resolução de mídia recomendadas para cada tipo de mídia compatível.

Tipo de mídia Configuração recomendada Máximo de tokens Orientação de uso
Imagens high 1120 Recomendado para a maioria das tarefas de análise de imagens para garantir a qualidade máxima.
PDFs medium 560 Ideal para compreensão de documentos. A qualidade geralmente satura em medium. Aumentar para high raramente melhora os resultados do OCR em documentos padrão.
Vídeo (Geral) low (ou medium) 70 (por frame) Observação:para vídeo, as configurações low e medium são tratadas de forma idêntica (70 tokens) para otimizar o uso do contexto. Isso é suficiente para a maioria das tarefas de reconhecimento e descrição de ações.
Vídeo (com muito texto) high 280 (por frame) Obrigatório apenas quando o caso de uso envolve a leitura de texto denso (OCR) ou pequenos detalhes em frames de vídeo.

Sempre teste e avalie o impacto de diferentes configurações de resolução no seu aplicativo para encontrar o melhor equilíbrio entre qualidade, latência e custo.

Resumo da compatibilidade de versões

  • Definir o resolution em itens de conteúdo individuais é exclusivo dos modelos do Gemini 3.

Próximas etapas