ПалиДжемма

Выпущена версия Gemma 4 с возможностью ввода текста, аудио и изображений, а также с контекстным окном длиной до 256 КБ! Узнайте больше.

Эта страница переведена с помощью Cloud Translation API.

PaliGemma 2 и PaliGemma — это облегченные модели открытого языка видения (VLM), вдохновленные PaLI-3 и основанные на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . PaliGemma принимает как изображения, так и текст в качестве входных данных и может отвечать на вопросы об изображениях с подробностями и контекстом. Это означает, что PaliGemma может выполнять более глубокий анализ изображений и предоставлять полезную информацию, например, добавлять субтитры к изображениям и коротким видеороликам, обнаруживать объекты и читать текст, встроенный в изображения.

PaliGemma 2 доступен с размерами параметров 3B, 10B и 28B, которые основаны на моделях Gemma 2 2B, 9B и 27B соответственно. Оригинальные модели PaliGemma доступны в размере 3B. Дополнительную информацию о вариантах моделей Gemma см. в списке моделей Gemma . Варианты модели PaliGemma поддерживают различные разрешения пикселей для входных изображений, включая 224 x 224, 448 x 448 и 896 x 896 пикселей.

Вы можете просмотреть и скачать модели PaliGemma со следующих сайтов:

Загрузите с Kaggle .
Скачать с «Обнимающего лица» .

Существует три категории моделей PaliGemma:

PaliGemma PT — предварительно обученные модели общего назначения, которые можно точно настроить для решения различных задач.
PaliGemma FT — модели, ориентированные на исследования, которые точно настроены на конкретные наборы исследовательских данных.
Смесь PaliGemma — модели, настроенные на сочетание задач, которые можно использовать «из коробки» для общих случаев использования.

Ключевые преимущества включают в себя:

Мультимодальные возможности

Одновременно обрабатывает как изображения, так и ввод текста.
Универсальная базовая модель.

Может быть точно настроен для решения широкого спектра задач, связанных с визуальным языком.
Готовые исследования

Поставляется с контрольно-пропускным пунктом, настроенным на различные задачи для немедленного исследовательского использования.

ПалиДжемма

Мультимодальные возможности

Универсальная базовая модель.

Готовые исследования

Подробнее

Запустить в Колабе

Подключайтесь к Colab

Посмотреть на Kaggle