Resolução de mídia
O parâmetro media_resolution controla como a API Gemini processa entradas de mídia, como imagens, vídeos e documentos PDF, determinando o número máximo de tokens alocados para entradas de mídia, permitindo que você equilibre a qualidade da resposta com a latência e o custo. Para diferentes configurações, valores padrão e como eles correspondem a tokens, consulte a seção Contagens de tokens.
É possível configurar a resolução de mídia para objetos de mídia individuais (itens de conteúdo) na solicitação (somente no Gemini 3).
Resolução de mídia por item de conteúdo (somente no Gemini 3)
O Gemini 3 permite definir a resolução de mídia para objetos de mídia individuais na solicitação, oferecendo otimização refinada do uso de tokens. É possível misturar níveis de resolução em uma única solicitação. Por exemplo, usando alta resolução para um diagrama complexo e baixa resolução para uma imagem contextual simples.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
REST
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Valores de resolução disponíveis
A API Gemini define os seguintes níveis de resolução de mídia:
unspecified: a configuração padrão. A contagem de tokens para esse nível varia significativamente entre o Gemini 3 e modelos anteriores.low: contagem de tokens mais baixa, resultando em processamento mais rápido e custo menor, mas com menos detalhes.medium: um equilíbrio entre detalhes, custo e latência.high: contagem de tokens mais alta, fornecendo mais detalhes para o modelo trabalhar, à custa de maior latência e custo.ultra_high(somente por item de conteúdo): contagem de tokens mais alta, necessária para casos de uso específicos, como uso de computador.
O high oferece o desempenho ideal para a maioria dos casos de uso.
O número exato de tokens gerados para cada um desses níveis depende do tipo de mídia (imagem, vídeo, PDF) e da versão do modelo.
Contagens de tokens
As tabelas abaixo resumem as contagens de tokens aproximadas para cada valor media_resolution e tipo de mídia por família de modelos.
Modelos do Gemini 3
| MediaResolution | Imagem | Vídeo | |
|---|---|---|---|
unspecified (padrão) |
1120 | 70 | 560 |
low |
280 | 70 | 280 + texto nativo |
medium |
560 | 70 | 560 + texto nativo |
high |
1120 | 280 | 1120 + texto nativo |
ultra_high |
2240 | N/A | N/A |
Como escolher a resolução certa
- Padrão (
unspecified): comece com o padrão. Ele é ajustado para um bom equilíbrio de qualidade, latência e custo para a maioria dos casos de uso comuns. low: use para cenários em que o custo e a latência são fundamentais e detalhes refinados são menos importantes.medium/high: aumente a resolução quando a tarefa exigir a compreensão de detalhes complexos na mídia. Isso geralmente é necessário para análises visuais complexas, leitura de gráficos ou compreensão de documentos densos.ultra_high: disponível apenas para a configuração por item de conteúdo. Recomendado para casos de uso específicos, como uso de computador ou quando os testes mostram uma melhoria clara em relação ahigh.- Controle por item de conteúdo (Gemini 3) : otimiza o uso de tokens. Por exemplo, em um comando com várias imagens, use
highpara um diagrama complexo elowoumediumpara imagens contextuais mais simples.
Configurações recomendadas
A lista a seguir mostra as configurações de resolução de mídia recomendadas para cada tipo de mídia compatível.
| Tipo de mídia | Configuração recomendada | Tokens máximos | Orientação de uso |
|---|---|---|---|
| Imagens | high |
1120 | Recomendado para a maioria das tarefas de análise de imagens para garantir a máxima qualidade. |
| PDFs | medium |
560 | Ideal para compreensão de documentos. A qualidade normalmente satura em medium. Aumentar para high raramente melhora os resultados do OCR para documentos padrão. |
| Vídeo (geral) | low (ou medium) |
70 (por frame) | Observação:para vídeos, as configurações low e medium são tratadas de forma idêntica (70 tokens) para otimizar o uso do contexto. Isso é suficiente para a maioria das tarefas de reconhecimento e descrição de ações. |
| Vídeo (com muito texto) | high |
280 (por frame) | Necessário apenas quando o caso de uso envolve a leitura de texto denso (OCR) ou pequenos detalhes em frames de vídeo. |
Sempre teste e avalie o impacto de diferentes configurações de resolução no aplicativo para encontrar o melhor equilíbrio entre qualidade, latência e custo.
Resumo da compatibilidade de versões
- A definição da
resolutionem itens de conteúdo individuais é exclusiva dos modelos do Gemini 3.
Próximas etapas
- Saiba mais sobre os recursos multimodais da API Gemini nos guias de compreensão de imagens, compreensão de vídeos e compreensão de documentos.