O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Resolução de mídia

Observação: esta versão da página aborda a nova API Interactions, que está atualmente na versão Beta.
Para implantações de produção estáveis, recomendamos que você continue usando a API generateContent. Use a alternância nesta página para mudar entre as versões.

O parâmetro media_resolution controla como a API Gemini processa entradas de mídia, como imagens, vídeos e documentos PDF, determinando o número máximo de tokens alocados para entradas de mídia, permitindo que você equilibre a qualidade da resposta com a latência e o custo. Para diferentes configurações, valores padrão e como eles correspondem a tokens, consulte a seção Contagens de tokens.

É possível configurar a resolução de mídia para objetos de mídia individuais (itens de conteúdo) na solicitação (somente no Gemini 3).

Resolução de mídia por item de conteúdo (somente no Gemini 3)

O Gemini 3 permite definir a resolução de mídia para objetos de mídia individuais na solicitação, oferecendo otimização refinada do uso de tokens. É possível misturar níveis de resolução em uma única solicitação. Por exemplo, usando alta resolução para um diagrama complexo e baixa resolução para uma imagem contextual simples.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Valores de resolução disponíveis

A API Gemini define os seguintes níveis de resolução de mídia:

unspecified: a configuração padrão. A contagem de tokens para esse nível varia significativamente entre o Gemini 3 e modelos anteriores.
low: contagem de tokens mais baixa, resultando em processamento mais rápido e custo menor, mas com menos detalhes.
medium: um equilíbrio entre detalhes, custo e latência.
high: contagem de tokens mais alta, fornecendo mais detalhes para o modelo trabalhar, à custa de maior latência e custo.
ultra_high (somente por item de conteúdo): contagem de tokens mais alta, necessária para casos de uso específicos, como uso de computador.

O high oferece o desempenho ideal para a maioria dos casos de uso.

O número exato de tokens gerados para cada um desses níveis depende do tipo de mídia (imagem, vídeo, PDF) e da versão do modelo.

Contagens de tokens

As tabelas abaixo resumem as contagens de tokens aproximadas para cada valor media_resolution e tipo de mídia por família de modelos.

Modelos do Gemini 3

MediaResolution	Imagem	Vídeo	PDF
`unspecified` (padrão)	1120	70	560
`low`	280	70	280 + texto nativo
`medium`	560	70	560 + texto nativo
`high`	1120	280	1120 + texto nativo
`ultra_high`	2240	N/A	N/A

Como escolher a resolução certa

Padrão (unspecified): comece com o padrão. Ele é ajustado para um bom equilíbrio de qualidade, latência e custo para a maioria dos casos de uso comuns.
low: use para cenários em que o custo e a latência são fundamentais e detalhes refinados são menos importantes.
medium / high: aumente a resolução quando a tarefa exigir a compreensão de detalhes complexos na mídia. Isso geralmente é necessário para análises visuais complexas, leitura de gráficos ou compreensão de documentos densos.
ultra_high : disponível apenas para a configuração por item de conteúdo. Recomendado para casos de uso específicos, como uso de computador ou quando os testes mostram uma melhoria clara em relação a high.
Controle por item de conteúdo (Gemini 3) : otimiza o uso de tokens. Por exemplo, em um comando com várias imagens, use high para um diagrama complexo e low ou medium para imagens contextuais mais simples.

Configurações recomendadas

A lista a seguir mostra as configurações de resolução de mídia recomendadas para cada tipo de mídia compatível.

Tipo de mídia	Configuração recomendada	Tokens máximos	Orientação de uso
Imagens	`high`	1120	Recomendado para a maioria das tarefas de análise de imagens para garantir a máxima qualidade.
PDFs	`medium`	560	Ideal para compreensão de documentos. A qualidade normalmente satura em `medium`. Aumentar para `high` raramente melhora os resultados do OCR para documentos padrão.
Vídeo (geral)	`low` (ou `medium`)	70 (por frame)	Observação:para vídeos, as configurações `low` e `medium` são tratadas de forma idêntica (70 tokens) para otimizar o uso do contexto. Isso é suficiente para a maioria das tarefas de reconhecimento e descrição de ações.
Vídeo (com muito texto)	`high`	280 (por frame)	Necessário apenas quando o caso de uso envolve a leitura de texto denso (OCR) ou pequenos detalhes em frames de vídeo.

Sempre teste e avalie o impacto de diferentes configurações de resolução no aplicativo para encontrar o melhor equilíbrio entre qualidade, latência e custo.

Resumo da compatibilidade de versões

A definição da resolution em itens de conteúdo individuais é exclusiva dos modelos do Gemini 3.

Próximas etapas

Saiba mais sobre os recursos multimodais da API Gemini nos guias de compreensão de imagens, compreensão de vídeos e compreensão de documentos.