Разрешение СМИ

Параметр media_resolution управляет обработкой входных медиафайлов API Gemini, таких как изображения, видео и PDF-документы, определяя максимальное количество токенов, выделяемых для медиавходов. Это позволяет сбалансировать качество ответа с задержкой и стоимостью. Различные настройки, значения по умолчанию и их соответствие токенам см. в разделе « Количество токенов» .

Вы можете настроить разрешение медиафайлов для отдельных объектов мультимедиа (элементов контента) в рамках вашего запроса (только в Gemini 3).

Разрешение медиаконтента для каждого элемента (только для Gemini 3)

Gemini 3 позволяет задавать разрешение для отдельных медиаобъектов в вашем запросе, обеспечивая тонкую оптимизацию использования токенов. Вы можете смешивать уровни разрешения в одном запросе. Например, использовать высокое разрешение для сложной диаграммы и низкое разрешение для простого контекстного изображения.

Python

from google import genai
from google.genai import types

client = genai.Client()

myfile = client.files.upload(file="path/to/image.jpg")

interaction = client.interactions.create(
    model="gemini-3-flash-preview",
    input=[
        {"type": "text", "text": "Describe this image:"},
        {
            "type": "image",
            "uri": myfile.uri,
            "mime_type": myfile.mime_type,
            "resolution": "high"
        }
    ]
)
print(interaction.steps[-1].content[0].text)

JavaScript

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/image.jpg",
    config: { mimeType: "image/jpeg" },
  });

  const interaction = await ai.interactions.create({
    model: "gemini-3-flash-preview",
    input: [
      { type: "text", text: "Describe this image:" },
      {
        type: "image",
        uri: myfile.uri,
        mimeType: myfile.mimeType,
        resolution: "high"
      }
    ],
  });
  console.log(interaction.steps.at(-1).content[0].text);
}

await main();

ОТДЫХ

# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": [
      {"type": "text", "text": "Describe this image:"},
      {
        "type": "image",
        "uri": "YOUR_FILE_URI",
        "mime_type": "image/jpeg",
        "resolution": "high"
      }
    ]
  }'

Доступные значения разрешения

API Gemini определяет следующие уровни разрешения медиафайлов:

  • unspecified : Настройка по умолчанию. Количество токенов для этого уровня значительно различается между Gemini 3 и более ранними моделями Gemini.
  • low : меньшее количество токенов, что приводит к более быстрой обработке и снижению затрат, но с меньшей детализацией.
  • medium : баланс между детализацией, стоимостью и задержкой.
  • high : Большее количество токенов, предоставляющее модели больше деталей для работы, за счет увеличения задержки и стоимости.
  • ultra_high (Только для каждого элемента контента): Максимальное количество токенов, необходимое для определенных сценариев использования, например, при работе за компьютером .

Обратите внимание, что high производительности обеспечивает оптимальные результаты для большинства сценариев использования.

Точное количество токенов, генерируемых для каждого из этих уровней, зависит как от типа носителя (изображение, видео, PDF), так и от версии модели .

Количество токенов

В таблицах ниже приведено приблизительное количество токенов для каждого значения media_resolution и типа медиафайлов для каждого семейства моделей.

Модели Gemini 3

MediaResolution Изображение Видео PDF
unspecified (по умолчанию) 1120 70 560
low 280 70 280 + Исходный текст
medium 560 70 560 + Исходный текст
high 1120 280 1120 + Исходный текст
ultra_high 2240 Н/Д Н/Д

Выбор правильного разрешения

  • По умолчанию ( unspecified ): Начните с настроек по умолчанию. Они оптимизированы для оптимального баланса качества, задержки и стоимости для большинства распространенных сценариев использования.
  • low : Используйте в сценариях, где стоимость и задержка имеют первостепенное значение, а детализация менее критична.
  • medium / high : Повышайте разрешение, когда задача требует понимания мельчайших деталей в медиаконтенте. Это часто необходимо для сложного визуального анализа, чтения диаграмм или понимания объемных документов.
  • ultra_high — Доступно только для настроек отдельных элементов контента. Рекомендуется для определенных сценариев использования, например, при работе за компьютером или когда тестирование показывает явное улучшение по сравнению с high .
  • Управление для каждого элемента контента (Gemini 3): Оптимизирует использование токенов. Например, в запросе с несколькими изображениями используйте high для сложной диаграммы и low или medium для более простых контекстных изображений.

Рекомендуемые настройки

Ниже приведен список рекомендуемых настроек разрешения для каждого поддерживаемого типа мультимедиа.

Тип носителя Рекомендуемые настройки Максимальное количество токенов Руководство по применению
Изображения high 1120 Рекомендуется для большинства задач анализа изображений, обеспечивающих максимальное качество.
PDF-файлы medium 560 Оптимальный уровень для понимания документов; качество обычно достигает насыщения на medium . Повышение до high редко улучшает результаты распознавания текста для стандартных документов.
Видео (Общее) low (или medium ) 70 (за кадр) Примечание: Для видео low и medium настройки обрабатываются одинаково (70 токенов) для оптимизации использования контекста. Этого достаточно для большинства задач распознавания и описания действий.
Видео (с большим количеством текста) high 280 (за кадр) Требуется только в тех случаях, когда сценарий использования включает распознавание текста с высоким разрешением (OCR) или чтение мелких деталей в видеокадрах.

Всегда тестируйте и оценивайте влияние различных настроек разрешения на ваше приложение, чтобы найти оптимальный компромисс между качеством, задержкой и стоимостью.

Сводка совместимости версий

  • Настройка resolution для отдельных элементов контента доступна только в моделях Gemini 3 .

Следующие шаги