Resolución de medios

El parámetro media_resolution controla cómo la API de Gemini procesa las entradas de medios, como imágenes, videos y documentos PDF, ya que determina la cantidad máxima de tokens asignados para las entradas de medios, lo que te permite equilibrar la calidad de la respuesta con la latencia y el costo. Para conocer los diferentes parámetros de configuración, los valores predeterminados y cómo se corresponden con los tokens, consulta la sección Recuento de tokens.

Puedes configurar la resolución de los medios para objetos multimedia individuales (elementos de contenido) dentro de tu solicitud (solo en Gemini 3).

Resolución de medios por elemento de contenido (solo Gemini 3)

Gemini 3 te permite establecer la resolución de los medios para objetos multimedia individuales dentro de tu solicitud, lo que ofrece una optimización detallada del uso de tokens. Puedes combinar niveles de resolución en una sola solicitud. Por ejemplo, usar alta resolución para un diagrama complejo y baja resolución para una imagen contextual simple.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

REST

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Valores de resolución disponibles

La API de Gemini define los siguientes niveles de resolución de medios:

  • unspecified: Es el parámetro de configuración predeterminado. El recuento de tokens para este nivel varía significativamente entre Gemini 3 y los modelos anteriores de Gemini.
  • low: Recuento de tokens más bajo, lo que genera un procesamiento más rápido y un costo menor, pero con menos detalles.
  • medium: Un equilibrio entre detalle, costo y latencia.
  • high: Mayor recuento de tokens, lo que proporciona más detalles para que el modelo trabaje, a costa de una mayor latencia y costo.
  • ultra_high (Solo por elemento de contenido): Es el recuento de tokens más alto y se requiere para casos de uso específicos, como el uso de computadoras.

Ten en cuenta que high proporciona el rendimiento óptimo para la mayoría de los casos de uso.

La cantidad exacta de tokens generados para cada uno de estos niveles depende del tipo de medio (imagen, video, PDF) y de la versión del modelo.

Recuentos de tokens

En las siguientes tablas, se resumen los recuentos aproximados de tokens para cada valor de media_resolution y tipo de medio por familia de modelos.

Modelos de Gemini 3

MediaResolution Imagen Video PDF
unspecified (predeterminado) 1120 70 560
low 280 70 280 + texto nativo
medium 560 70 560 + texto nativo
high 1120 280 1120 + texto nativo
ultra_high 2240 N/A N/A

Cómo elegir la resolución correcta

  • Predeterminado (unspecified): Comienza con la configuración predeterminada. Está optimizado para lograr un buen equilibrio entre calidad, latencia y costo en la mayoría de los casos de uso comunes.
  • low: Úsalo en situaciones en las que el costo y la latencia son fundamentales, y los detalles precisos son menos importantes.
  • medium o high: Aumenta la resolución cuando la tarea requiere comprender detalles complejos dentro del contenido multimedia. Esto suele ser necesario para el análisis visual complejo, la lectura de gráficos o la comprensión de documentos densos.
  • ultra_high: Solo está disponible para la configuración por elemento de contenido. Se recomienda para casos de uso específicos, como el uso de computadoras, o cuando las pruebas muestran una mejora clara en comparación con high.
  • Control por elemento de contenido (Gemini 3): Optimiza el uso de tokens. Por ejemplo, en una instrucción con varias imágenes, usa high para un diagrama complejo y low o medium para imágenes contextuales más simples.

Configuración recomendada

A continuación, se indican los parámetros de configuración de resolución de medios recomendados para cada tipo de medio admitido.

Tipo de medio Configuración recomendada Tokens máximos Orientación sobre el uso
Imágenes high 1120 Se recomienda para la mayoría de las tareas de análisis de imágenes para garantizar la máxima calidad.
PDFs medium 560 Es óptimo para la comprensión de documentos; la calidad suele saturarse en medium. Aumentar a high rara vez mejora los resultados del OCR para documentos estándar.
Video (general) low (o medium) 70 (por fotograma) Nota: En el caso de los videos, la configuración de low y medium se trata de forma idéntica (70 tokens) para optimizar el uso del contexto. Esto es suficiente para la mayoría de las tareas de reconocimiento y descripción de acciones.
Video (con mucho texto) high 280 (por fotograma) Solo se requiere cuando el caso de uso implica leer texto denso (OCR) o detalles pequeños dentro de los fotogramas de video.

Siempre prueba y evalúa el impacto de los diferentes parámetros de configuración de resolución en tu aplicación para encontrar el mejor equilibrio entre calidad, latencia y costo.

Resumen de compatibilidad de versiones

  • Establecer el parámetro resolution en elementos de contenido individuales es exclusivo de los modelos de Gemini 3.

Próximos pasos