Страница модели: ПалиДжемма
Ресурсы и техническая документация:
Условия использования: Условия
Авторы: Google
Информация о модели
Краткое описание модели
PaliGemma 2 — это обновление модели языка видения PaliGemma (VLM), которое включает в себя возможности моделей Gemma 2 . Семейство моделей PaliGemma вдохновлено PaLI-3 и основано на открытых компонентах, таких как модель видения SigLIP и языковые модели Gemma 2 . Он принимает изображение и текст в качестве входных данных и генерирует текст в качестве выходных данных, поддерживая несколько языков. Он предназначен для лучшей в своем классе точной настройки производительности при решении широкого спектра задач, связанных с визуальным языком, таких как создание изображений и коротких титров к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
Модельная архитектура
PaliGemma 2 представляет собой композицию декодера Transformer и кодера изображения Vision Transformer . Текстовый декодер инициализируется из Gemma 2 с размерами параметров 2B, 9B и 27B. Кодер изображения инициализируется из SigLIP-So400m/14 . Подобно оригинальной модели PaliGemma, PaliGemma 2 обучается по рецептам PaLI-3 .
Входы и выходы
- Входные данные: изображение и текстовая строка, например приглашение к подписи к изображению или вопрос.
- Выходные данные: сгенерированный текст в ответ на ввод, например заголовок изображения, ответ на вопрос, список координат ограничивающей рамки объекта или кодовые слова сегментации.
Цитирование
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Данные модели
Наборы данных перед поездкой
PaliGemma 2 предварительно обучена на следующей смеси наборов данных:
- WebLI: WebLI (изображение на веб-языке) — это многоязычный набор изображений и текста в веб-масштабе, созданный из общедоступной сети. Широкий спектр разделений WebLI используется для приобретения универсальных возможностей модели, таких как визуальное семантическое понимание, локализация объектов, визуальное понимание текста и многоязычность.
- CC3M-35L: тщательно подобранные пары изображение-альт_текст на английском языке с веб-страниц ( Шарма и др., 2018 ). Мы использовали Google Cloud Translation API для перевода на 34 дополнительных языка.
- VQ²A-CC3M-35L/VQG-CC3M-35L: подмножество VQ2A-CC3M ( Changpinyo et al., 2022a ), переведенное на те же дополнительные 34 языка, что и CC3M-35L, с использованием Google Cloud Translation API .
- OpenImages: вопросы и ответы по обнаружению и объектно-ориентированному подходу ( Пьерджованни и др., 2022 ), созданные с помощью вручную созданных правил в наборе данных OpenImages .
- WIT: изображения и тексты, собранные из Википедии ( Srinivasan et al., 2021 ).
PaliGemma 2 основана на Gemma 2, и вы можете найти информацию о наборах данных предварительного обучения для Gemma 2 в карточке модели Gemma 2 .
Фильтрация ответственности за данные
Следующие фильтры применяются к WebLI с целью обучения PaliGemma 2 использованию безопасных и ответственных данных:
- Фильтрация порнографических изображений. Этот фильтр удаляет изображения, которые считаются порнографическими.
- Фильтрация безопасности текста: мы выявляем и отфильтровываем изображения, связанные с небезопасным текстом. Небезопасным текстом считается любой текст, который содержит изображения сексуального насилия над детьми (CSAI), порнографию, пошлость или иным образом оскорбляет их.
- Фильтрация токсичности текста: мы также используем Perspective API для выявления и фильтрации изображений, которые сочетаются с текстом, который считается оскорбительным, непристойным, ненавистническим или иным образом токсичным.
- Фильтрация текстовой личной информации. Мы отфильтровали определенную личную информацию и другие конфиденциальные данные с помощью API Cloud Data Loss Prevention (DLP) для защиты конфиденциальности отдельных лиц. Идентификаторы, такие как номера социального страхования и другие типы конфиденциальной информации, были удалены.
- Дополнительные методы: фильтрация на основе качества и безопасности контента в соответствии с нашими политиками и практиками.
Информация о реализации
Аппаратное обеспечение
PaliGemma 2 обучалась с использованием оборудования тензорного процессора (TPU) последнего поколения (TPUv5e).
Программное обеспечение
Обучение проходило с использованием JAX , Flax , TFDS и big_vision
.
JAX позволяет исследователям использовать преимущества оборудования последнего поколения, включая TPU, для более быстрого и эффективного обучения больших моделей.
TFDS используется для доступа к наборам данных, а Flax — для архитектуры модели. Код тонкой настройки и код вывода PaliGemma 2 опубликованы в репозитории big_vision
GitHub.
Информация об оценке
Результаты тестов
Чтобы проверить возможность переноса PaliGemma 2 на широкий спектр академических задач, мы настраиваем предварительно обученные модели для каждой задачи. Мы сообщаем о результатах для разных разрешений, чтобы получить представление о том, какие задачи выигрывают от увеличения разрешения. Важно отметить, что ни одна из этих задач или наборов данных не является частью смеси данных для предварительного обучения, и их изображения явно удаляются из данных предварительного обучения в веб-масштабе.
Результаты PaliGemma 2 по разрешению и размеру модели
Контрольный показатель | 224-3Б | 224-10Б | 224-28Б | 448-3Б | 448-10Б | 448-28Б |
---|---|---|---|---|---|---|
AI2D | 74,7 | 83,1 | 83,2 | 76,0 | 84,4 | 84,6 |
АОКВКА-ДА (вал) | 64,2 | 68,9 | 70,2 | 67,9 | 70,8 | 71,2 |
АОКВКА-МС (вал) | 79,7 | 83,7 | 84,7 | 82,5 | 85,9 | 87,0 |
ActivityNet-CAP | 34,2 | 35,9 | - | - | - | - |
ActivityNet-QA | 51,3 | 53,2 | - | - | - | - |
КОКО-35Л (avg34) | 113,9 | 115,8 | 116,5 | 115,8 | 117,2 | 117,2 |
КОКО-35Л (ru) | 138,4 | 140,8 | 142,4 | 140,4 | 142,4 | 142,3 |
COCOcap | 141,3 | 143,7 | 144,0 | 143,4 | 145,0 | 145,2 |
ChartQA (среднее) | 74,4 | 74,2 | 68,9 | 89,2 | 90,1 | 85,1 |
ChartQA (человек) | 42,0 | 48,4 | 46,8 | 54,0 | 66,4 | 61,3 |
CountBenchQA | 81,0 | 84,0 | 86,4 | 82,0 | 85,3 | 87,4 |
DocVQA (вал) | 39,9 | 43,9 | 44,9 | 73,6 | 76,6 | 76,1 |
GQA | 66,2 | 67,2 | 67,3 | 68,1 | 68,3 | 68,3 |
ИнфоВКА (вал) | 25,2 | 33,6 | 36,4 | 37,5 | 47,8 | 46,7 |
МАРВЛ (avg5) | 83,5 | 89,5 | 90,6 | 82,7 | 89,1 | 89,7 |
MSRVTT-CAP | 68,5 | 72,1 | - | - | - | - |
МСРВТТ-QA | 50,5 | 51,9 | - | - | - | - |
МСВД-QA | 61,1 | 62,5 | - | - | - | - |
НЛВР2 | 91,4 | 93,9 | 94,2 | 91,6 | 93,7 | 94,1 |
NoCaps | 123,1 | 126,3 | 127,1 | 123,5 | 126,9 | 127,0 |
OCR-VQA | 73,4 | 74,7 | 75,3 | 75,7 | 76,3 | 76,6 |
ОКВКА | 64,2 | 68,0 | 71,2 | 64,1 | 68,6 | 70,6 |
RSVQA-hr (тест) | 92,7 | 92,6 | 92,7 | 92,8 | 92,8 | 92,8 |
RSVQA-hr (test2) | 90,9 | 90,8 | 90,9 | 90,7 | 90,7 | 90,8 |
RSVQA-лр | 93,0 | 92,8 | 93,5 | 92,7 | 93,1 | 93,7 |
RefCOCO (тестА) | 75,7 | 77,2 | 76,8 | 78,6 | 79,7 | 79,3 |
RefCOCO (testB) | 71,0 | 74,2 | 73,9 | 73,5 | 76,2 | 74,8 |
RefCOCO (вал) | 73,4 | 75,9 | 75,0 | 76,3 | 78,2 | 77,3 |
RefCOCO+ (тестА) | 72,7 | 74,7 | 73,6 | 76,1 | 77,7 | 76,6 |
RefCOCO+ (testB) | 64,2 | 68,4 | 67,1 | 67,0 | 71,1 | 68,6 |
RefCOCO+ (значение) | 68,6 | 72,0 | 70,3 | 72,1 | 74,4 | 72,8 |
RefCOCOg (тест) | 69,0 | 71,9 | 70,7 | 72,7 | 74,8 | 73,7 |
RefCOCOg (значение) | 68,3 | 71,4 | 70,5 | 72,3 | 74,4 | 73,0 |
СТ-ВКА (вал) | 61,9 | 64,3 | 65,1 | 80,5 | 82,0 | 81,8 |
SciCap | 165,1 | 159,5 | 156,9 | 183,3 | 177,2 | 172,7 |
НаукаQA | 96,1 | 98,2 | 98,2 | 96,2 | 98,5 | 98,6 |
Экран2Слова | 113,3 | 117,8 | 122,8 | 114,0 | 119,1 | 123,4 |
TallyQA (комплекс) | 70,3 | 73,4 | 74,2 | 73,6 | 76,7 | 76,8 |
TallyQA (простой) | 81,8 | 83,2 | 83,4 | 85,3 | 86,2 | 85,7 |
ТекстКапс | 127,5 | 137,9 | 139,9 | 152,1 | 157,7 | 153,6 |
ТекстVQA (значение) | 59,6 | 64,0 | 64,7 | 75,2 | 76,6 | 76,2 |
ВАТЕКС | 80,8 | 82,7 | - | - | - | - |
VQAv2 (минимал) | 83,0 | 84,3 | 84,5 | 84,8 | 85,8 | 85,8 |
VizWizVQA (вал) | 76,4 | 78,1 | 78,7 | 77,5 | 78,6 | 78,9 |
ВиджетКап | 138,1 | 139,8 | 138,8 | 151,4 | 151,9 | 148,9 |
XM3600 (среднее35) | 42,8 | 44,5 | 45,2 | 43,2 | 44,6 | 45,2 |
XM3600 (ru) | 79,8 | 80,7 | 81,0 | 80,3 | 81,5 | 81,0 |
xGQA (avg7) | 58,6 | 61,4 | 61,1 | 60,4 | 62,6 | 62,1 |
Дополнительные тесты
Модель | Точность | Отзывать | Ф1 |
---|---|---|---|
ПалиДжемма 2 3Б | 81,88 | 70,73 | 75,9 |
Модель | Точность | Отзывать | Ф1 |
---|---|---|---|
ПалиДжемма 2 3Б | 73.8. | 74,54 | 74,17 |
Модель | S-TEDS | ТЭДС | ГриТС-Топ | ГриТС-Кон |
---|---|---|---|---|
ПалиДжемма 2 3Б | 99,18 | 98,94 | 99,43 | 99,21 |
Модель | S-TEDS | ТЭДС | ГриТС-Топ | ГриТС-Кон |
---|---|---|---|---|
ПалиДжемма 2 3Б | 97,6 | 97,31 | 97,99 | 97,84 |
Модель | ССВ | ЛЕР | СЭР |
---|---|---|---|
ПалиДжемма 2 3Б | 1,6 | 6,7 | 2.3 |
- ПалиДжемма 2 3Б, Полный матч: 94,8
Модель | avg#символ | avg#отправлено | РЭШ % |
---|---|---|---|
ПалиДжемма 2 3Б | 529 | 7,74 | 28.42 |
ПалиДжемма 2 10Б | 521 | 7.45 | 20.27 |
- avg#char : Среднее количество символов.
- avg#sent : Среднее количество предложений.
- NES : приговоры, не влекущие за собой наказания
Модель | Сидр | БЛЕУ4 | Руж-Л | РадГраф F1 |
---|---|---|---|---|
ПалиДжемма 2 3Б | 19,9% | 14,6% | 31,92% | 28,8% |
ПалиДжемма 2 10Б | 17,4% | 15% | 32,41% | 29,5% |
Визуальное пространственное мышление
Модель | Разделение VSR с нулевым выстрелом (тест) | Случайное разделение VSR (тест) |
---|---|---|
ПалиДжемма 2 3Б | 0,75 | 0,82 |
ПалиДжемма 2 10Б | 0,80 | 0,87 |
Этика и безопасность
Подход к оценке
Наши методы оценки включают структурированные оценки этики и безопасности в рамках соответствующих политик в отношении контента, в том числе:
- Человеческая оценка подсказок, касающихся безопасности детей, безопасности контента и репрезентативного вреда. См. карточку модели Gemma для получения более подробной информации о подходе к оценке, но с подписями к изображениям и настройками визуальных ответов на вопросы.
- Сравнительная оценка преобразования изображения в текст: сравнение с соответствующими наборами академических данных, такими как набор данных FairFace ( Karkkainen et al., 2021 ).
Результаты оценки
- Результаты человеческой оценки этики и безопасности находятся в пределах приемлемых порогов для соответствия внутренней политике по таким категориям, как безопасность детей, безопасность контента и репрезентативный вред.
- Помимо надежных внутренних оценок, мы также используем Perspective API (порог 0,8) для измерения токсичности, ненормативной лексики и других потенциальных проблем в генерируемых подписях к изображениям, полученным из набора данных FairFace. Мы сообщаем о максимальных и медианных значениях, наблюдаемых в подгруппах для каждого из воспринимаемых признаков пола, этнической принадлежности и возраста.
Метрика | Воспринимаемый пол | Этническая принадлежность | Возрастная группа | ||||||
---|---|---|---|---|---|---|---|---|---|
Размер модели | 3Б | 10Б | 28Б | 3Б | 10Б | 28Б | 3Б | 10Б | 28Б |
Максимум | |||||||||
Токсичность | 0,14% | 0,15% | 0,19% | 0,29% | 0,39% | 0,39% | 0,26% | 0,18% | 0,32% |
Идентификационная атака | 0,04% | 0,02% | 0,02% | 0,13% | 0,06% | 0,06% | 0,06% | 0,03% | 0,06% |
Оскорблять | 0,17% | 0,25% | 0,17% | 0,37% | 0,52% | 0,52% | 0,27% | 0,39% | 0,24% |
Угроза | 0,55% | 0,43% | 0,57% | 0,83% | 0,48% | 0,48% | 0,64% | 0,43% | 0,64% |
Ненормативная лексика | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
медиана | |||||||||
Токсичность | 0,13% | 0,10% | 0,18% | 0,07% | 0,07% | 0,14% | 0,12% | 0,08% | 0,12% |
Идентификационная атака | 0,02% | 0,01% | 0,02% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Оскорблять | 0,15% | 0,23% | 0,14% | 0,14% | 0,17% | 0,13% | 0,09% | 0,18% | 0,16% |
Угроза | 0,35% | 0,27% | 0,41% | 0,28% | 0,19% | 0,42% | 0,27% | 0,31% | 0,40% |
Ненормативная лексика | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Использование и ограничения
Использование по назначению
Языковые модели Open Vision (VLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели. Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
Точная настройка на конкретную задачу визуального языка:
- Предварительно обученные модели можно точно настроить для выполнения широкого спектра задач визуального языка, таких как: субтитры к изображениям, короткие субтитры к видео, визуальные ответы на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
- Предварительно обученные модели можно точно настроить для конкретных областей, таких как ответы на вопросы дистанционного зондирования, визуальные вопросы от слепых людей, ответы на научные вопросы, описание функций элементов пользовательского интерфейса.
- Предварительно обученные модели можно точно настроить для задач с нетекстовыми выходными данными, такими как ограничивающие рамки или маски сегментации.
Исследование языка видения:
- Предварительно обученные и точно настроенные модели могут послужить исследователям основой для экспериментов с методами VLM, разработки алгоритмов и внесения вклада в развитие этой области.
Этические соображения и риски
Разработка моделей языка видения (VLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:
- Предвзятость и справедливость
- VLM, обученные на крупномасштабных реальных изображениях и текстовых данных, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
- Дезинформация и неправильное использование
- VLM могут быть использованы не по назначению для создания ложного, вводящего в заблуждение или вредного текста.
- Предоставляются рекомендации по ответственному использованию модели, см. набор инструментов Responsible Generative AI Toolkit .
- Прозрачность и подотчетность
- В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
- Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.
Выявленные риски и меры по их снижению:
- Сохранение предвзятостей: рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
- Создание вредного контента. Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
- Неправомерное использование в злонамеренных целях. Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить вредоносное применение LLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании: см. набор инструментов ответственного генеративного искусственного интеллекта . Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
- Нарушения конфиденциальности: модели обучались на данных, отфильтрованных для удаления определенной личной информации и конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.
Ограничения
- Большинство ограничений, унаследованных от базовых моделей Gemma 2, по-прежнему применяются:
- VLM лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
- Естественный язык по своей сути сложен. VLM могут с трудом уловить тонкие нюансы, сарказм или образный язык.
- VLM генерируют ответы на основе информации, полученной из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
- VLM полагаются на статистические закономерности в языке и изображениях. Им может не хватать способности применять здравый смысл в определенных ситуациях.
- PaliGemma 2 была разработана в первую очередь как общая предварительно обученная модель для точной настройки под специализированные задачи. Следовательно, его производительность «из коробки» или «нулевой выстрел» может отставать от моделей, разработанных специально для общего использования.
- PaliGemma 2 — не многоходовой чат-бот. Он предназначен для одного раунда ввода изображений и текста.
Страница модели: ПалиДжемма
Ресурсы и техническая документация:
Условия использования: Условия
Авторы: Google
Информация о модели
Краткое описание модели
PaliGemma 2 — это обновление модели языка видения PaliGemma (VLM), которое включает в себя возможности моделей Gemma 2 . Семейство моделей PaliGemma вдохновлено PaLI-3 и основано на открытых компонентах, таких как модель видения SigLIP и языковые модели Gemma 2 . Он принимает изображение и текст в качестве входных данных и генерирует текст в качестве выходных данных, поддерживая несколько языков. Он предназначен для лучшей в своем классе точной настройки производительности при решении широкого спектра задач, связанных с визуальным языком, таких как создание изображений и коротких титров к видео, визуальный ответ на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
Модельная архитектура
PaliGemma 2 представляет собой композицию декодера Transformer и кодера изображения Vision Transformer . Текстовый декодер инициализируется из Gemma 2 с размерами параметров 2B, 9B и 27B. Кодер изображения инициализируется из SigLIP-So400m/14 . Подобно оригинальной модели PaliGemma, PaliGemma 2 обучается по рецептам PaLI-3 .
Входы и выходы
- Входные данные: изображение и текстовая строка, например приглашение к подписи к изображению или вопрос.
- Выходные данные: сгенерированный текст в ответ на ввод, например заголовок изображения, ответ на вопрос, список координат ограничивающей рамки объекта или кодовые слова сегментации.
Цитирование
@article{
title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2412.03555}
}
Данные модели
Наборы данных перед поездкой
PaliGemma 2 предварительно обучен на следующей смеси наборов данных:
- WebLI: WebLI (изображение на веб-языке) — это многоязычный набор изображений и текста в веб-масштабе, созданный из общедоступной сети. Широкий спектр разделений WebLI используется для приобретения универсальных возможностей модели, таких как визуальное семантическое понимание, локализация объектов, визуальное понимание текста и многоязычность.
- CC3M-35L: тщательно подобранные пары «изображение-альтернативный_текст» на английском языке с веб-страниц ( Шарма и др., 2018 ). Мы использовали Google Cloud Translation API для перевода на 34 дополнительных языка.
- VQ²A-CC3M-35L/VQG-CC3M-35L: подмножество VQ2A-CC3M ( Changpinyo et al., 2022a ), переведенное на те же дополнительные 34 языка, что и CC3M-35L, с использованием Google Cloud Translation API .
- OpenImages: вопросы и ответы по обнаружению и объектно-ориентированному подходу ( Пьерджованни и др., 2022 ), созданные с помощью вручную созданных правил в наборе данных OpenImages .
- WIT: изображения и тексты, собранные из Википедии ( Srinivasan et al., 2021 ).
PaliGemma 2 основана на Gemma 2, и вы можете найти информацию о наборах данных для предварительного обучения для Gemma 2 в карточке модели Gemma 2 .
Фильтрация ответственности за данные
Следующие фильтры применяются к WebLI с целью обучения PaliGemma 2 использованию безопасных и ответственных данных:
- Фильтрация порнографических изображений. Этот фильтр удаляет изображения, которые считаются порнографическими.
- Фильтрация безопасности текста: мы выявляем и отфильтровываем изображения, связанные с небезопасным текстом. Небезопасным текстом считается любой текст, который содержит изображения сексуального насилия над детьми (CSAI), порнографию, пошлость или иным образом оскорбляет их.
- Фильтрация токсичности текста: мы также используем Perspective API для выявления и фильтрации изображений, которые сочетаются с текстом, который считается оскорбительным, непристойным, ненавистническим или иным образом токсичным.
- Фильтрация текстовой личной информации. Мы отфильтровали определенную личную информацию и другие конфиденциальные данные с помощью API Cloud Data Loss Prevention (DLP) для защиты конфиденциальности отдельных лиц. Идентификаторы, такие как номера социального страхования и другие типы конфиденциальной информации, были удалены.
- Дополнительные методы: фильтрация на основе качества и безопасности контента в соответствии с нашими политиками и практиками.
Информация о реализации
Аппаратное обеспечение
PaliGemma 2 обучалась с использованием оборудования тензорного процессора (TPU) последнего поколения (TPUv5e).
Программное обеспечение
Обучение проходило с использованием JAX , Flax , TFDS и big_vision
.
JAX позволяет исследователям использовать преимущества оборудования последнего поколения, включая TPU, для более быстрого и эффективного обучения больших моделей.
TFDS используется для доступа к наборам данных, а Flax — для архитектуры модели. Код тонкой настройки и код вывода PaliGemma 2 опубликованы в репозитории big_vision
GitHub.
Информация об оценке
Результаты тестов
Чтобы проверить возможность переноса PaliGemma 2 на широкий спектр академических задач, мы настраиваем предварительно обученные модели для каждой задачи. Мы сообщаем о результатах для разных разрешений, чтобы получить представление о том, какие задачи выигрывают от увеличения разрешения. Важно отметить, что ни одна из этих задач или наборов данных не является частью смеси данных для предварительного обучения, и их изображения явно удаляются из данных предварительного обучения в веб-масштабе.
Результаты PaliGemma 2 по разрешению и размеру модели
Контрольный показатель | 224-3Б | 224-10Б | 224-28Б | 448-3Б | 448-10Б | 448-28Б |
---|---|---|---|---|---|---|
AI2D | 74,7 | 83,1 | 83,2 | 76,0 | 84,4 | 84,6 |
АОКВКА-ДА (вал) | 64,2 | 68,9 | 70,2 | 67,9 | 70,8 | 71,2 |
АОКВКА-МС (вал) | 79,7 | 83,7 | 84,7 | 82,5 | 85,9 | 87,0 |
ActivityNet-CAP | 34,2 | 35,9 | - | - | - | - |
ActivityNet-QA | 51,3 | 53,2 | - | - | - | - |
КОКО-35Л (avg34) | 113,9 | 115,8 | 116,5 | 115,8 | 117,2 | 117,2 |
КОКО-35Л (ru) | 138,4 | 140,8 | 142,4 | 140,4 | 142,4 | 142,3 |
COCOcap | 141,3 | 143,7 | 144,0 | 143,4 | 145,0 | 145,2 |
ChartQA (среднее) | 74,4 | 74,2 | 68,9 | 89,2 | 90,1 | 85,1 |
ChartQA (человек) | 42,0 | 48,4 | 46,8 | 54,0 | 66,4 | 61,3 |
CountBenchQA | 81,0 | 84,0 | 86,4 | 82,0 | 85,3 | 87,4 |
DocVQA (вал) | 39,9 | 43,9 | 44,9 | 73,6 | 76,6 | 76,1 |
GQA | 66,2 | 67,2 | 67,3 | 68,1 | 68,3 | 68,3 |
ИнфоВКА (вал) | 25,2 | 33,6 | 36,4 | 37,5 | 47,8 | 46,7 |
МАРВЛ (avg5) | 83,5 | 89,5 | 90,6 | 82,7 | 89,1 | 89,7 |
MSRVTT-CAP | 68,5 | 72,1 | - | - | - | - |
МСРВТТ-QA | 50,5 | 51,9 | - | - | - | - |
МСВД-QA | 61,1 | 62,5 | - | - | - | - |
НЛВР2 | 91,4 | 93,9 | 94,2 | 91,6 | 93,7 | 94,1 |
NoCaps | 123,1 | 126,3 | 127,1 | 123,5 | 126,9 | 127,0 |
OCR-VQA | 73,4 | 74,7 | 75,3 | 75,7 | 76,3 | 76,6 |
ОКВКА | 64,2 | 68,0 | 71,2 | 64,1 | 68,6 | 70,6 |
RSVQA-hr (тест) | 92,7 | 92,6 | 92,7 | 92,8 | 92,8 | 92,8 |
RSVQA-hr (test2) | 90,9 | 90,8 | 90,9 | 90,7 | 90,7 | 90,8 |
RSVQA-лр | 93,0 | 92,8 | 93,5 | 92,7 | 93,1 | 93,7 |
RefCOCO (тестА) | 75,7 | 77,2 | 76,8 | 78,6 | 79,7 | 79,3 |
RefCOCO (testB) | 71,0 | 74,2 | 73,9 | 73,5 | 76,2 | 74,8 |
RefCOCO (вал) | 73,4 | 75,9 | 75,0 | 76,3 | 78,2 | 77,3 |
RefCOCO+ (тестА) | 72,7 | 74,7 | 73,6 | 76,1 | 77,7 | 76,6 |
RefCOCO+ (testB) | 64,2 | 68,4 | 67,1 | 67,0 | 71,1 | 68,6 |
RefCOCO+ (значение) | 68,6 | 72,0 | 70,3 | 72,1 | 74,4 | 72,8 |
RefCOCOg (тест) | 69,0 | 71,9 | 70,7 | 72,7 | 74,8 | 73,7 |
RefCOCOg (значение) | 68,3 | 71,4 | 70,5 | 72,3 | 74,4 | 73,0 |
СТ-ВКА (вал) | 61,9 | 64,3 | 65,1 | 80,5 | 82,0 | 81,8 |
SciCap | 165,1 | 159,5 | 156,9 | 183,3 | 177,2 | 172,7 |
НаукаQA | 96,1 | 98,2 | 98,2 | 96,2 | 98,5 | 98,6 |
Экран2Слова | 113,3 | 117,8 | 122,8 | 114,0 | 119,1 | 123,4 |
TallyQA (комплекс) | 70,3 | 73,4 | 74,2 | 73,6 | 76,7 | 76,8 |
TallyQA (простой) | 81,8 | 83,2 | 83,4 | 85,3 | 86,2 | 85,7 |
ТекстКапс | 127,5 | 137,9 | 139,9 | 152,1 | 157,7 | 153,6 |
ТекстVQA (значение) | 59,6 | 64,0 | 64,7 | 75,2 | 76,6 | 76,2 |
ВАТЕКС | 80,8 | 82,7 | - | - | - | - |
VQAv2 (минимал) | 83,0 | 84,3 | 84,5 | 84,8 | 85,8 | 85,8 |
VizWizVQA (вал) | 76,4 | 78,1 | 78,7 | 77,5 | 78,6 | 78,9 |
ВиджетКап | 138,1 | 139,8 | 138,8 | 151,4 | 151,9 | 148,9 |
XM3600 (среднее35) | 42,8 | 44,5 | 45,2 | 43,2 | 44,6 | 45,2 |
XM3600 (ru) | 79,8 | 80,7 | 81,0 | 80,3 | 81,5 | 81,0 |
xGQA (avg7) | 58,6 | 61,4 | 61,1 | 60,4 | 62,6 | 62,1 |
Дополнительные тесты
Модель | Точность | Отзывать | Ф1 |
---|---|---|---|
ПалиДжемма 2 3Б | 81,88 | 70,73 | 75,9 |
Модель | Точность | Отзывать | Ф1 |
---|---|---|---|
ПалиДжемма 2 3Б | 73.8. | 74,54 | 74,17 |
Модель | S-TEDS | ТЭДС | ГриТС-Топ | ГриТС-Кон |
---|---|---|---|---|
ПалиДжемма 2 3Б | 99,18 | 98,94 | 99,43 | 99,21 |
Модель | S-TEDS | ТЭДС | ГриТС-Топ | ГриТС-Кон |
---|---|---|---|---|
ПалиДжемма 2 3Б | 97,6 | 97,31 | 97,99 | 97,84 |
Модель | ССВ | ЛЕР | СЭР |
---|---|---|---|
ПалиДжемма 2 3Б | 1,6 | 6,7 | 2.3 |
- ПалиДжемма 2 3Б, Полный матч: 94,8
Модель | avg#символ | avg#отправлено | РЭШ % |
---|---|---|---|
ПалиДжемма 2 3Б | 529 | 7,74 | 28.42 |
ПалиДжемма 2 10Б | 521 | 7.45 | 20.27 |
- avg#char : Среднее количество символов.
- avg#sent : Среднее количество предложений.
- NES : приговоры, не влекущие за собой наказания
Модель | Сидр | БЛЕУ4 | Руж-Л | РадГраф F1 |
---|---|---|---|---|
ПалиДжемма 2 3Б | 19,9% | 14,6% | 31,92% | 28,8% |
ПалиДжемма 2 10Б | 17,4% | 15% | 32,41% | 29,5% |
Визуальное пространственное мышление
Модель | Разделение VSR с нулевым выстрелом (тест) | Случайное разделение VSR (тест) |
---|---|---|
ПалиДжемма 2 3Б | 0,75 | 0,82 |
ПалиДжемма 2 10Б | 0,80 | 0,87 |
Этика и безопасность
Подход к оценке
Наши методы оценки включают структурированные оценки этики и безопасности в рамках соответствующих политик в отношении контента, в том числе:
- Человеческая оценка подсказок, касающихся безопасности детей, безопасности контента и репрезентативного вреда. См. карточку модели Gemma для получения более подробной информации о подходе к оценке, но с подписями к изображениям и настройками визуальных ответов на вопросы.
- Сравнительная оценка преобразования изображения в текст: сравнение с соответствующими наборами академических данных, такими как набор данных FairFace ( Karkkainen et al., 2021 ).
Результаты оценки
- Результаты человеческой оценки этики и безопасности находятся в пределах приемлемых порогов для соответствия внутренней политике по таким категориям, как безопасность детей, безопасность контента и репрезентативный вред.
- Помимо надежных внутренних оценок, мы также используем Perspective API (порог 0,8) для измерения токсичности, ненормативной лексики и других потенциальных проблем в генерируемых подписях к изображениям, полученным из набора данных FairFace. Мы сообщаем о максимальных и медианных значениях, наблюдаемых в подгруппах для каждого из воспринимаемых признаков пола, этнической принадлежности и возраста.
Метрика | Воспринимаемый пол | Этническая принадлежность | Возрастная группа | ||||||
---|---|---|---|---|---|---|---|---|---|
Размер модели | 3Б | 10Б | 28Б | 3Б | 10Б | 28Б | 3Б | 10Б | 28Б |
Максимум | |||||||||
Токсичность | 0,14% | 0,15% | 0,19% | 0,29% | 0,39% | 0,39% | 0,26% | 0,18% | 0,32% |
Идентификационная атака | 0,04% | 0,02% | 0,02% | 0,13% | 0,06% | 0,06% | 0,06% | 0,03% | 0,06% |
Оскорблять | 0,17% | 0,25% | 0,17% | 0,37% | 0,52% | 0,52% | 0,27% | 0,39% | 0,24% |
Угроза | 0,55% | 0,43% | 0,57% | 0,83% | 0,48% | 0,48% | 0,64% | 0,43% | 0,64% |
Ненормативная лексика | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
медиана | |||||||||
Токсичность | 0,13% | 0,10% | 0,18% | 0,07% | 0,07% | 0,14% | 0,12% | 0,08% | 0,12% |
Идентификационная атака | 0,02% | 0,01% | 0,02% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Оскорблять | 0,15% | 0,23% | 0,14% | 0,14% | 0,17% | 0,13% | 0,09% | 0,18% | 0,16% |
Угроза | 0,35% | 0,27% | 0,41% | 0,28% | 0,19% | 0,42% | 0,27% | 0,31% | 0,40% |
Ненормативная лексика | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Использование и ограничения
Использование по назначению
Языковые модели Open Vision (VLM) имеют широкий спектр приложений в различных отраслях и областях. Следующий список потенциальных применений не является исчерпывающим. Цель этого списка — предоставить контекстную информацию о возможных вариантах использования, которые создатели модели рассматривали как часть обучения и разработки модели. Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
Точная настройка на конкретную задачу визуального языка:
- Предварительно обученные модели можно точно настроить для выполнения широкого спектра задач визуального языка, таких как: субтитры к изображениям, короткие субтитры к видео, визуальные ответы на вопросы, чтение текста, обнаружение объектов и сегментация объектов.
- Предварительно обученные модели могут быть точно настроены для конкретных областей, таких как ответы на вопросы дистанционного зондирования, визуальные вопросы от слепых людей, ответы на научные вопросы, описание функций элементов пользовательского интерфейса.
- Предварительно обученные модели можно точно настроить для задач с нетекстовыми выходными данными, такими как ограничивающие рамки или маски сегментации.
Исследование языка видения:
- Предварительно обученные и точно настроенные модели могут послужить исследователям основой для экспериментов с методами VLM, разработки алгоритмов и внесения вклада в развитие этой области.
Этические соображения и риски
Разработка моделей языка видения (VLM) вызывает ряд этических проблем. При создании открытой модели мы тщательно учли следующее:
- Предвзятость и справедливость
- VLM, обученные на крупномасштабных реальных изображениях и текстовых данных, могут отражать социокультурные предубеждения, заложенные в учебные материалы. Эти модели подверглись тщательному изучению, описана предварительная обработка входных данных и апостериорные оценки, представленные на этой карте.
- Дезинформация и неправильное использование
- VLM могут быть использованы не по назначению для создания ложного, вводящего в заблуждение или вредного текста.
- Предоставляются рекомендации по ответственному использованию модели, см. набор инструментов Responsible Generative AI Toolkit .
- Прозрачность и подотчетность
- В этой карточке модели обобщаются подробности об архитектуре моделей, возможностях, ограничениях и процессах оценки.
- Ответственно разработанная открытая модель дает возможность делиться инновациями, делая технологию VLM доступной для разработчиков и исследователей в экосистеме искусственного интеллекта.
Выявленные риски и меры по их снижению:
- Сохранение предвзятостей: рекомендуется осуществлять непрерывный мониторинг (с использованием показателей оценки, человеческого анализа) и исследование методов устранения предвзятости во время обучения модели, точной настройки и других вариантов использования.
- Создание вредного контента. Механизмы и рекомендации по обеспечению безопасности контента имеют важное значение. Разработчикам рекомендуется проявлять осторожность и внедрять соответствующие меры безопасности контента, основанные на их конкретной политике в отношении продуктов и сценариях использования приложений.
- Неправомерное использование в злонамеренных целях. Технические ограничения, а также обучение разработчиков и конечных пользователей могут помочь предотвратить вредоносное применение LLM. Предоставляются образовательные ресурсы и механизмы отчетности, позволяющие пользователям сообщать о неправомерном использовании: см. набор инструментов ответственного генеративного искусственного интеллекта . Запрещенное использование моделей Gemma изложено в Политике запрещенного использования Gemma .
- Нарушения конфиденциальности: модели обучались на данных, отфильтрованных для удаления определенной личной информации и конфиденциальных данных. Разработчикам рекомендуется соблюдать правила конфиденциальности и использовать методы сохранения конфиденциальности.
Ограничения
- Большинство ограничений, унаследованных от базовых моделей Gemma 2, по-прежнему применяются:
- VLM лучше справляются с задачами, которые можно сформулировать с помощью четких подсказок и инструкций. Открытые или очень сложные задачи могут оказаться сложными.
- Естественный язык по своей сути сложен. VLM могут с трудом уловить тонкие нюансы, сарказм или образный язык.
- VLM генерируют ответы на основе информации, полученной из наборов обучающих данных, но они не являются базами знаний. Они могут генерировать неправильные или устаревшие фактические утверждения.
- VLM полагаются на статистические закономерности в языке и изображениях. Им может не хватать способности применять здравый смысл в определенных ситуациях.
- PaliGemma 2 была разработана в первую очередь как общая предварительно обученная модель для точной настройки под специализированные задачи. Следовательно, его производительность «из коробки» или «нулевой выстрел» может отставать от моделей, разработанных специально для общего использования.
- PaliGemma 2 — не многоходовой чат-бот. Он предназначен для одного раунда ввода изображений и текста.