Карточка модели PaliGemma 1

Страница модели: ПалиДжемма

Ресурсы и техническая документация:

Условия использования: Условия

Авторы: Google

Информация о модели

Краткое описание модели

Описание

PaliGemma — это универсальная и легкая модель языка видения (VLM), вдохновленная PaLI-3 и основанная на открытых компонентах, таких как модель видения SigLIP и языковая модель Gemma . Он принимает изображение и текст в качестве входных данных и генерирует текст в качестве выходных данных, поддерживая несколько языков. Он предназначен для лучшей в своем классе точной настройки производительности при решении широкого спектра задач, связанных с визуальным языком, таких как создание изображений и коротких титров к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.

Модельная архитектура

PaliGemma представляет собой композицию декодера Transformer и кодировщика изображений Vision Transformer , имеющую в общей сложности 3 миллиарда параметров. Декодер текста инициализируется из Gemma-2B . Кодер изображения инициализируется из SigLIP-So400m/14 . ПалиДжемма обучается по рецептам Пали-3.

Входы и выходы

  • Входные данные: изображение и текстовая строка, например приглашение к подписи к изображению или вопрос.
  • Выходные данные: сгенерированный текст в ответ на ввод, например заголовок изображения, ответ на вопрос, список координат ограничивающей рамки объекта или кодовые слова сегментации.

Цитирование

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

Данные модели

Наборы данных перед поездкой

PaliGemma предварительно обучена на следующей смеси наборов данных:

  • WebLI: WebLI (изображение на веб-языке) — это многоязычный набор изображений и текста в веб-масштабе, созданный из общедоступной сети. Широкий спектр разделений WebLI используется для приобретения универсальных возможностей модели, таких как визуальное семантическое понимание, локализация объектов, визуальное понимание текста, многоязычность и т. д.
  • CC3M-35L: тщательно подобранные пары изображение-альтернативный_текст на английском языке с веб-страниц ( Шарма и др., 2018 ). Мы использовали Google Cloud Translation API для перевода на 34 дополнительных языка.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: подмножество VQ2A-CC3M ( Changpinyo et al., 2022a ), переведенное на те же дополнительные 34 языка, что и CC3M-35L, с использованием Google Cloud Translation API .
  • OpenImages: вопросы и ответы по обнаружению и объектно-ориентированному анализу ( Пьерджованни и др., 2022 ), созданные с помощью вручную созданных правил в наборе данных OpenImages .
  • WIT: изображения и тексты, собранные из Википедии ( Srinivasan et al., 2021 ).

Фильтрация ответственности за данные

Следующие фильтры применяются к WebLI с целью обучения PaliGemma на чистых данных:

  • Фильтрация порнографических изображений. Этот фильтр удаляет изображения, которые считаются порнографическими.
  • Фильтрация безопасности текста: мы выявляем и отфильтровываем изображения, связанные с небезопасным текстом. Небезопасным текстом считается любой текст, который содержит или содержит изображения сексуального насилия над детьми (CSAI), порнографию, пошлость или иным образом является оскорбительным.
  • Фильтрация токсичности текста. Мы также используем Perspective API для выявления и фильтрации изображений, которые сочетаются с текстом, который считается оскорбительным, непристойным, разжигающим ненависть или иным образом токсичным.
  • Фильтрация текстовой личной информации. Мы отфильтровали определенную личную информацию и другие конфиденциальные данные с помощью API Cloud Data Loss Prevention (DLP) для защиты конфиденциальности отдельных лиц. Идентификаторы, такие как номера социального страхования и другие типы конфиденциальной информации, были удалены.
  • Дополнительные методы: фильтрация на основе качества и безопасности контента в соответствии с нашими политиками и практиками.

Информация о реализации

Аппаратное обеспечение

ПалиДжемма обучалась с использованием аппаратного обеспечения тензорного процессора (TPU) последнего поколения (TPUv5e).

Программное обеспечение

Обучение проходило с использованием JAX , Flax , TFDS и big_vision .

JAX позволяет исследователям использовать преимущества оборудования последнего поколения, включая TPU, для более быстрого и эффективного обучения больших моделей.

TFDS используется для доступа к наборам данных, а Flax — для архитектуры модели. Код тонкой настройки и код вывода PaliGemma опубликованы в репозитории big_vision GitHub.

Информация об оценке

Результаты тестов

Чтобы проверить возможность переноса PaliGemma на широкий спектр академических задач, мы настраиваем предварительно обученные модели для каждой задачи. Дополнительно мы обучаем модель микса, используя смесь задач передачи. Мы сообщаем о результатах для разных разрешений, чтобы составить представление о том, какие задачи выигрывают от увеличения разрешения. Важно отметить, что ни одна из этих задач или наборов данных не является частью смеси данных для предварительного обучения, и их изображения явно удаляются из данных предварительного обучения в веб-масштабе.

Одна задача (точная настройка для одной задачи)

Контрольный показатель (разделение поездов) Метрика (разделенная) ПТ-224 ПТ-448 пт-896
Субтитры
COCO субтитры (поезд+рествал) СИДР (вал) 141,92 144,60
NoCaps (оценка передачи субтитров COCO) СИДР (вал) 121,72 123,58
КОКО-35Л (поезд) Разработчик CIDEr (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (оценка передачи COCO-35L) Разработчик CIDEr (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (поезд) СИДР (вал) 127,48 153,94
SciCap (первое предложение, без подфигуры) (train+val) CIDEr/BLEU-4 (тест)
162,25
0,192
181,49
0,211
Screen2words (поезд+разработчик) CIDEr (тест) 117,57 119,59
Субтитры виджетов (поезд+разработчик) CIDEr (тест) 136,07 148,36
Ответ на вопрос
VQAv2 (обучение+проверка) Точность (Тестовый сервер – стандарт) 83,19 85,64
MMVP (оценка передачи VQAv2) Парная точность 47,33 45,33
POPE (оценка передачи VQAv2) Точность (случайная/популярная/состязательная)
87,80
85,87
84,27
88,23
86,77
85,90
ОКВКА (поезд) Точность (значение) 63,54 63,15
A-OKVQA (MC) (поезд+вал) Точность (Тестовый сервер) 76,37 76,90
A-OKVQA (DA) (поезд+вал) Точность (Тестовый сервер) 61,85 63,22
GQA (train_balanced+val_balanced) Точность (сбалансированная testdev) 65,61 67.03
xGQA (оценка передачи GQA) Средняя точность (bn, de, en, id, ko, pt, ru, zh) 58,37 59.07
NLVR2 (поезд+разработчик) Точность (тест) 90.02 88,93
MaRVL (оценка передачи NLVR2) Средняя точность (тест) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (поезд) Точность (тест) 72.12 73,28
ScienceQA (подмножество изображений, без CoT) (train+val) Точность (тест) 95,39 95,93
RSVQA-LR (нечисловой) (поезд+значение) Средняя точность (тест) 92,65 93.11
RSVQA-HR (нечисловой) (поезд+значение) Средняя точность (тест/тест2)
92,61
90,58
92,79
90,54
ChartQA (человек+август)x(поезд+значение) Средняя расслабленная точность (test_human, test_aug) 57.08 71,36
VizWiz VQA (поезд+вал) Точность (Тестовый сервер – стандарт) 73,7 75,52
TallyQA (поезд) Точность (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (поезд+значение) Точность (тест) 72,32 74,61 74,93
TextVQA (поезд+значение) Точность (Тестовый сервер - стандарт) 55,47 73,15 76,48
DocVQA (поезд+вал) АНЛС (Тестовый сервер) 43,74 78.02 84,77
Инфографика VQA (поезд+вал) АНЛС (Тестовый сервер) 28.46 40,47 47,75
SceneText VQA (поезд+значение) АНЛС (Тестовый сервер) 63,29 81,82 84.40
Сегментация
RefCOCO (комбинированное изображение refcoco, refcoco+, refcocog, исключая val и тестовые изображения) MIoU (проверка) refcoco/refcoco+/refcocog
73.40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Видеозадания (Caption/QA)
MSR-VTT (С субтитрами) CIDEr (тест) 70,54
МСР-ВТТ (ОК) Точность (тест) 50.09
ActivityNet (субтитры) CIDEr (тест) 34,62
Активетьнет (QA) Точность (тест) 50,78
ВАТЕКС (С субтитрами) CIDEr (тест) 79,73
МСВД (QA) Точность (тест) 60,22

Смешанная модель (точная настройка сочетания задач передачи)

Контрольный показатель Метрика (разделенная) микс-224 микс-448
ММВП Парная точность 46.00 45,33
ПОПА Точность (случайная/популярная/состязательная)
88.00
86,63
85,67
89,37
88.40
87,47

Этика и безопасность

Подход к оценке

Наши методы оценки включают структурированные оценки и внутреннее групповое тестирование соответствующих политик в отношении контента. «Красная команда» проводилась несколькими разными командами, каждая из которых преследовала разные цели и показатели человеческой оценки. Эти модели оценивались по ряду различных категорий, имеющих отношение к этике и безопасности, в том числе:

  • Человеческая оценка подсказок, касающихся безопасности детей, безопасности контента и репрезентативного вреда. См. карточку модели Gemma для получения более подробной информации о подходе к оценке, но с подписями к изображениям и настройками визуальных ответов на вопросы.
  • Сравнительная оценка преобразования изображения в текст: сравнение с соответствующими наборами академических данных, такими как набор данных FairFace ( Karkkainen et al., 2021 ).

Результаты оценки

  • Результаты человеческой оценки этики и безопасности находятся в пределах допустимых порогов для соответствия внутренней политике по таким категориям, как безопасность детей, безопасность контента и репрезентативный вред.
  • Помимо надежных внутренних оценок, мы также используем Perspective API (порог 0,8) для измерения токсичности, ненормативной лексики и других потенциальных проблем в генерируемых подписях к изображениям, полученным из набора данных FairFace. Мы сообщаем о максимальных и медианных значениях, наблюдаемых в подгруппах для каждого из воспринимаемых признаков пола, этнической принадлежности и возраста.
Метрика Воспринимаемый пол Этническая принадлежность Возрастная группа
Максимум медиана Максимум медиана Максимум медиана
Токсичность 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Идентификационная атака 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Оскорблять 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Угроза 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Ненормативная лексика 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Использование и ограничения

Использование по назначению

Языковые модели Open Vision (VLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели. Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .

Точная настройка на конкретную задачу визуального языка:

  • Предварительно обученные модели могут быть точно настроены для решения широкого спектра задач визуального языка, таких как субтитры к изображениям, короткие субтитры к видео, визуальные ответы на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
  • Предварительно обученные модели могут быть точно настроены для конкретных областей, таких как ответы на вопросы дистанционного зондирования, визуальные вопросы от слепых людей, ответы на научные вопросы, описание функций элементов пользовательского интерфейса.
  • Предварительно обученные модели можно точно настроить для задач с нетекстовыми выходными данными, такими как ограничивающие рамки или маски сегментации.

Исследование языка видения:

  • Предварительно обученные и точно настроенные модели могут послужить исследователям основой для экспериментов с методами VLM, разработки алгоритмов и внесения вклада в развитие этой области.

Этические соображения и риски

Разработка моделей языка видения (VLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:

  • Предвзятость и справедливость
    • VLM, обученные на крупномасштабных реальных изображениях и текстовых данных, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
  • Дезинформация и неправильное использование
    • VLM могут быть использованы не по назначению для создания ложного, вводящего в заблуждение или вредного текста.
    • Предоставляются рекомендации по ответственному использованию модели, см. набор инструментов Responsible Generative AI Toolkit .
  • Прозрачность и подотчетность
    • В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
    • Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.

Выявленные риски и меры по их снижению:

  • Сохранение предвзятостей: рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
  • Создание вредного контента. Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
  • Неправомерное использование в злонамеренных целях. Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить вредоносное применение LLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании: см. набор инструментов ответственного генеративного искусственного интеллекта . Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
  • Нарушения конфиденциальности: модели обучались на данных, отфильтрованных для удаления определенной личной информации и конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.

Ограничения

  • Большинство ограничений, унаследованных от базовой модели Gemma, по-прежнему применяются:
    • VLM лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
    • Естественный язык по своей сути сложен. VLM могут с трудом уловить тонкие нюансы, сарказм или образный язык.
    • VLM генерируют ответы на основе информации, полученной из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
    • VLM полагаются на статистические закономерности в языке и изображениях. Им может не хватать способности применять здравый смысл в определенных ситуациях.
  • PaliGemma была разработана в первую очередь как общая предварительно обученная модель для точной настройки под специализированные задачи. Следовательно, его производительность «из коробки» или «нулевой выстрел» может отставать от моделей, разработанных специально для общего использования.
  • PaliGemma — не многоходовой чат-бот. Он предназначен для одного раунда ввода изображений и текста.