Понимание видения

Gemma 4, новейшая модель из семейства Gemma, способна выполнять широкий спектр задач обработки изображений и языка, таких как обнаружение объектов, оптическое распознавание символов (OCR), ответы на визуальные вопросы, создание подписей к изображениям и рассуждения на основе нескольких изображений. Она также поддерживает обработку с переменным разрешением, что позволяет сбалансировать скорость вывода и точность результата.

В этом разделе рассматривается, как эффективно подготовить и использовать визуальные данные в ваших заданиях.

Визуальные данные

Визуальные данные могут быть представлены в различных форматах и ​​разрешениях. Конкретные поддерживаемые форматы файлов (например, JPEG и PNG) зависят от выбранной вами платформы для преобразования визуальных данных в тензоры.

Вот основные моменты, которые следует учитывать при подготовке визуальных данных для Джеммы:

  • Стоимость токенов: для каждого изображения обычно требуется 256 токенов, хотя стоимость токенов PaliGemma для изображений варьируется в зависимости от выбранной модели.
  • Разрешение: Интерпретируемое разрешение — то есть количество пикселей, закодированных в токены и обработанных моделью, — зависит от используемой вами версии Gemma:
    • Джемма 4: Переменное разрешение, основанное на бюджете токенов. Вы можете выбрать один из размеров бюджета: 70, 140, 280, 560 или 1120 токенов, что определяет, насколько сильно будет изменен размер и обработано входное изображение.
    • Gemma 3: (4B и выше) разрешение 896x896, с возможностью панорамирования и сканирования для получения изображений большего размера.
    • Gemma 3n: разрешение 256x256, 512x512 или 768x768.
    • PaliGemma 2: разрешение 224x224, 448x448 или 896x896.

Изображения с более низким разрешением обрабатываются быстрее, но захватывают меньше визуальных деталей. Для оптимизации скорости вывода следует стремиться предоставлять визуальные данные, соответствующие одному из встроенных разрешений интерпретируемой модели Gemma.

Переменное разрешение и бюджеты токенов

Модели Gemma 4 предоставляют возможность обработки изображений с различным разрешением, позволяя адаптировать визуальный ввод к конкретной задаче. Например, вы можете выбрать высокое разрешение для точного определения мелких деталей при обнаружении объектов, в то время как более низкое разрешение может быть предпочтительнее для анализа отдельных кадров видео, чтобы ускорить обработку. В конечном итоге, эта функция позволяет сбалансировать скорость вывода и точность визуального представления.

Этот компромисс регулируется с помощью бюджета токенов . Этот бюджет устанавливает жесткое ограничение на количество визуальных токенов (также известных как векторные представления визуальных токенов), которые модель может сгенерировать для одного изображения.

Вы можете выбрать бюджет в размере 70, 140, 280, 560 или 1120 токенов:

  • Большие бюджеты (например, 1120 токенов): сохраняют более высокое разрешение изображения. Это генерирует больше фрагментов для обработки моделью, что идеально подходит для захвата мелких, сложных деталей.
  • Ограниченный бюджет (например, 70 токенов): уменьшите масштаб изображения, что приведет к уменьшению количества фрагментов. Это значительно ускорит время выполнения инференции.

Как работает бюджет. Бюджет токенов напрямую контролирует, насколько изменяется размер изображения, определяя максимальное количество исходных фрагментов изображения. Система генерирует в девять раз больше фрагментов, чем выбранный вами бюджет. Например, бюджет в 280 токенов дает до 2520 фрагментов (280 × 9).

Множитель 9 обусловлен способом сжатия фрагментов: в процессе обработки модель берет каждую сетку 3x3 из смежных фрагментов и усредняет их, создавая единое векторное представление. Эти объединенные векторные представления становятся вашими окончательными визуальными токенами. Следовательно, больший бюджет токенов дает больше окончательных векторных представлений, что позволяет модели извлекать более богатую и детализированную информацию из ваших визуальных данных.

Что нужно делать

Вот несколько рекомендаций, которым следует следовать при предоставлении Джемме визуальных данных.

  • Будьте конкретны : если у вас есть какие-либо конкретные задачи, предоставьте достаточный контекст и указания. Вместо «опишите это изображение» попробуйте «опишите сцену на этом изображении, сосредоточившись на взаимоотношениях между людьми и предметами».

  • Укажите ограничения : чтобы добиться определенного стиля или тона, обязательно укажите это в задании. Например, вместо общего требования написать рассказ, попросите Джемму: «Напишите короткий рассказ об этом изображении в стиле нуар».

  • Итеративная доработка : Для достижения желаемого результата часто требуются эксперименты и уточнение подсказок. Начните с простой подсказки и постепенно добавляйте сложности.

Не следует

Вот несколько моментов, которых следует избегать при предоставлении Джемме визуальных данных.

  • Ожидайте точных подсчетов для чрезвычайно плотных объектов : хотя Gemma 4 отлично справляется с обнаружением объектов и распознаванием текста, она все же может предоставлять приблизительные, а не точные данные для чрезвычайно плотных или крошечных объектов (например, подсчет отдельных травинок). Для достижения наилучшей точности в визуальных задачах используйте больший бюджет токенов.

  • Нечеткие или расплывчатые подсказки : Вместо общих подсказок типа «Создайте что-нибудь на основе этого изображения», предоставьте конкретные инструкции для достижения желаемых результатов. Четко определите, что именно подразумевается под «чем-то». Например, стихотворение, рецепт или фрагмент кода.