Разрешение СМИ
Параметр media_resolution управляет обработкой входных медиафайлов API Gemini, таких как изображения, видео и PDF-документы, определяя максимальное количество токенов, выделяемых для медиавходов. Это позволяет сбалансировать качество ответа с задержкой и стоимостью. Различные настройки, значения по умолчанию и их соответствие токенам см. в разделе « Количество токенов» .
Вы можете настроить разрешение медиафайлов для отдельных объектов мультимедиа (элементов контента) в рамках вашего запроса (только в Gemini 3).
Разрешение медиаконтента для каждого элемента (только для Gemini 3)
Gemini 3 позволяет задавать разрешение для отдельных медиаобъектов в вашем запросе, обеспечивая тонкую оптимизацию использования токенов. Вы можете смешивать уровни разрешения в одном запросе. Например, использовать высокое разрешение для сложной диаграммы и низкое разрешение для простого контекстного изображения.
Python
from google import genai
from google.genai import types
client = genai.Client()
myfile = client.files.upload(file="path/to/image.jpg")
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input=[
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": myfile.uri,
"mime_type": myfile.mime_type,
"resolution": "high"
}
]
)
print(interaction.steps[-1].content[0].text)
JavaScript
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({});
async function main() {
const myfile = await ai.files.upload({
file: "path/to/image.jpg",
config: { mimeType: "image/jpeg" },
});
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: [
{ type: "text", text: "Describe this image:" },
{
type: "image",
uri: myfile.uri,
mimeType: myfile.mimeType,
resolution: "high"
}
],
});
console.log(interaction.steps.at(-1).content[0].text);
}
await main();
ОТДЫХ
# First upload the file using the Files API, then use the URI:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "gemini-3-flash-preview",
"input": [
{"type": "text", "text": "Describe this image:"},
{
"type": "image",
"uri": "YOUR_FILE_URI",
"mime_type": "image/jpeg",
"resolution": "high"
}
]
}'
Доступные значения разрешения
API Gemini определяет следующие уровни разрешения медиафайлов:
-
unspecified: Настройка по умолчанию. Количество токенов для этого уровня значительно различается между Gemini 3 и более ранними моделями Gemini. -
low: меньшее количество токенов, что приводит к более быстрой обработке и снижению затрат, но с меньшей детализацией. -
medium: баланс между детализацией, стоимостью и задержкой. -
high: Большее количество токенов, предоставляющее модели больше деталей для работы, за счет увеличения задержки и стоимости. -
ultra_high(Только для каждого элемента контента): Максимальное количество токенов, необходимое для определенных сценариев использования, например, при работе за компьютером .
Обратите внимание, что high производительности обеспечивает оптимальные результаты для большинства сценариев использования.
Точное количество токенов, генерируемых для каждого из этих уровней, зависит как от типа носителя (изображение, видео, PDF), так и от версии модели .
Количество токенов
В таблицах ниже приведено приблизительное количество токенов для каждого значения media_resolution и типа медиафайлов для каждого семейства моделей.
Модели Gemini 3
| MediaResolution | Изображение | Видео | |
|---|---|---|---|
unspecified (по умолчанию) | 1120 | 70 | 560 |
low | 280 | 70 | 280 + Исходный текст |
medium | 560 | 70 | 560 + Исходный текст |
high | 1120 | 280 | 1120 + Исходный текст |
ultra_high | 2240 | Н/Д | Н/Д |
Выбор правильного разрешения
- По умолчанию (
unspecified): Начните с настроек по умолчанию. Они оптимизированы для оптимального баланса качества, задержки и стоимости для большинства распространенных сценариев использования. -
low: Используйте в сценариях, где стоимость и задержка имеют первостепенное значение, а детализация менее критична. -
medium/high: Повышайте разрешение, когда задача требует понимания мельчайших деталей в медиаконтенте. Это часто необходимо для сложного визуального анализа, чтения диаграмм или понимания объемных документов. -
ultra_high— Доступно только для настроек отдельных элементов контента. Рекомендуется для определенных сценариев использования, например, при работе за компьютером или когда тестирование показывает явное улучшение по сравнению сhigh. - Управление для каждого элемента контента (Gemini 3): Оптимизирует использование токенов. Например, в запросе с несколькими изображениями используйте
highдля сложной диаграммы иlowилиmediumдля более простых контекстных изображений.
Рекомендуемые настройки
Ниже приведен список рекомендуемых настроек разрешения для каждого поддерживаемого типа мультимедиа.
| Тип носителя | Рекомендуемые настройки | Максимальное количество токенов | Руководство по применению |
|---|---|---|---|
| Изображения | high | 1120 | Рекомендуется для большинства задач анализа изображений, обеспечивающих максимальное качество. |
| PDF-файлы | medium | 560 | Оптимальный уровень для понимания документов; качество обычно достигает насыщения на medium . Повышение до high редко улучшает результаты распознавания текста для стандартных документов. |
| Видео (Общее) | low (или medium ) | 70 (за кадр) | Примечание: Для видео low и medium настройки обрабатываются одинаково (70 токенов) для оптимизации использования контекста. Этого достаточно для большинства задач распознавания и описания действий. |
| Видео (с большим количеством текста) | high | 280 (за кадр) | Требуется только в тех случаях, когда сценарий использования включает распознавание текста с высоким разрешением (OCR) или чтение мелких деталей в видеокадрах. |
Всегда тестируйте и оценивайте влияние различных настроек разрешения на ваше приложение, чтобы найти оптимальный компромисс между качеством, задержкой и стоимостью.
Сводка совместимости версий
- Настройка
resolutionдля отдельных элементов контента доступна только в моделях Gemini 3 .
Следующие шаги
- Подробнее о многомодальных возможностях API Gemini можно узнать в руководствах по распознаванию изображений , распознаванию видео и распознаванию документов .