ПалиДжемма

PaliGemma — это облегченная модель открытого языка видения (VLM), вдохновленная PaLI-3 и основанная на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . PaliGemma принимает как изображения, так и текст в качестве входных данных и может отвечать на вопросы об изображениях с подробностями и контекстом. Это означает, что PaliGemma может выполнять более глубокий анализ изображений и предоставлять полезную информацию, например, добавлять субтитры к изображениям и коротким видеороликам, обнаруживать объекты и читать текст, встроенный в них. изображений.

Существует два набора моделей PaliGemma: набор общего назначения и набор, ориентированный на исследования:

  • PaliGemma — предварительно обученные модели общего назначения, которые можно точно настроить для решения различных задач.
  • PaliGemma-FT — модели, ориентированные на исследования и точно настроенные на конкретные наборы исследовательских данных.

Ключевые преимущества включают в себя:

  • Одновременно понимает и изображения, и текст.
  • Может быть точно настроен для решения широкого спектра задач, связанных с визуальным языком.
  • Поставляется с контрольно-пропускным пунктом, настроенным на различные задачи для немедленного исследовательского использования.

Узнать больше

Карточка модели PaliGemma содержит подробную информацию о модели, информацию о реализации, информацию об оценке, использовании и ограничениях модели и многое другое.
Просмотрите больше кода, блокноты Colab, информацию и обсуждения о PaliGemma на Kaggle.
Запустите рабочий пример тонкой настройки PaliGemma с помощью JAX в Colab.