ПалиДжемма
PaliGemma — это облегченная модель открытого языка видения (VLM), вдохновленная PaLI-3 и основанная на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . PaliGemma принимает как изображения, так и текст в качестве входных данных и может отвечать на вопросы об изображениях с подробностями и контекстом. Это означает, что PaliGemma может выполнять более глубокий анализ изображений и предоставлять полезную информацию, например, добавлять субтитры к изображениям и коротким видеороликам, обнаруживать объекты и читать текст, встроенный в них. изображений.
Существует два набора моделей PaliGemma: набор общего назначения и набор, ориентированный на исследования:
- PaliGemma — предварительно обученные модели общего назначения, которые можно точно настроить для решения различных задач.
- PaliGemma-FT — модели, ориентированные на исследования, которые точно настроены на конкретные наборы исследовательских данных.
Ключевые преимущества включают в себя:
-
Мультимодальное понимание
Одновременно понимает и изображения, и текст. -
Универсальная базовая модель.
Может быть точно настроен для решения широкого спектра задач, связанных с визуальным языком. -
Готовые исследования
Поставляется с контрольно-пропускным пунктом, настроенным на различные задачи для немедленного исследовательского использования.