Karta modelu PaliGemma 2

Strona modelu: PaliGemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

PaliGemma 2 to zaktualizowana wersja modelu językowo-wizualnego (VLM) PaliGemma, który wykorzystuje możliwości modeli Gemma 2. Rodzina modeli PaliGemma jest inspirowana modelem PaLI-3 i oparta na otwartych komponentach, takich jak model widzenia SigLIP i model językowy Gemma 2. Jako dane wejściowe przyjmuje obraz i tekst, a jako dane wyjściowe generuje tekst. Obsługuje wiele języków. Model ten został zaprojektowany tak, aby zapewniać najlepszą w swoim rodzaju wydajność w szerokim zakresie zadań związanych z językiem i wizualizacją, takich jak dodawanie napisów do obrazów i krótkich filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.

Architektura modelu

PaliGemma 2 to kompozycja dekodera transformera i enkodera obrazu Vision Transformer. Dekoder tekstu jest inicjowany z Gemma 2 w rozmiarach parametrów 2B, 9B i 27B. Koder obrazu jest inicjowany z SigLIP-So400m/14. Podobnie jak oryginalny model PaliGemma, PaliGemma 2 jest trenowany zgodnie z przepisami PaLI-3.

Wejścia i wyjścia

  • Wejście: obraz i ciąg tekstowy, np. prompt do dodania podpisu do obrazu lub pytanie.
  • Wyjście: wygenerowany tekst w odpowiedzi na dane wejściowe, np. podpis pod obrazem, odpowiedź na pytanie, lista współrzędnych prostokąta ograniczającego obiekt lub słowa kodowe służące do podziału na segmenty.

Cytowanie

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

Dane modelu

Zbiory danych do wstępnego trenowania

PaliGemma 2 jest wytrenowana wstępnie na podstawie następujących zbiorów danych:

  • WebLI: WebLI (Web Language Image) to wielojęzyczny zbiór danych obrazów z tekstem, który został utworzony na podstawie publicznych stron internetowych. Dostępne są różne wersje WebLI, które umożliwiają korzystanie z różnorodnych możliwości modelu, takich jak semantyczna analiza wizualna, lokalizacja obiektów, zrozumienie tekstu w kontekście wizualnym i wielojęzyczność.
  • CC3M-35L: wyselekcjonowane pary obraz–tekst alternatywny w języku angielskim z internetu (Sharma i in., 2018). Użyliśmy interfejsu Google Cloud Translation API, aby przetłumaczyć na 34 dodatkowe języki.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: podzbiór danych VQ2A-CC3M (Changpinyo i in., 2022a), przetłumaczone na te same dodatkowe 34 języki co CC3M-35L za pomocą interfejsu Google Cloud Translation API.
  • OpenImages: pytania i odpowiedzi dotyczące wykrywania i rozpoznawania obiektów (Piergiovanni i in., 2022) wygenerowane na podstawie reguł stworzonych ręcznie na podstawie zbioru danych OpenImages.
  • WIT: obrazy i teksty zebrane z Wikipedii (Srinivasan i in., 2021).

PaliGemma 2 opiera się na modelu Gemma 2. Informacje o danych do wstępnego trenowania dla modelu Gemma 2 znajdziesz na karcie modelu Gemma 2.

Filtrowanie danych zgodnie z zasadami odpowiedzialności

W celu trenowania modelu PaliGemma2 na podstawie bezpiecznych i odpowiedzialnych danych do WebLI zastosowano te filtry:

  • Filtrowanie obrazów o charakterze pornograficznym: ten filtr usuwa obrazy uznane za o charakterze pornograficznym.
  • Filtrowanie tekstu pod kątem bezpieczeństwa: identyfikujemy i odfiltrowujemy obrazy, które są połączone z niebezpiecznym tekstem. Niebezpieczny tekst to tekst, który zawiera lub dotyczy obrazów związanych z wykorzystywaniem seksualnym dzieci (CSAI), pornografii, wulgaryzmów lub jest w inny sposób obraźliwy.
  • Filtrowanie toksycznych treści: korzystamy z interfejsu API Perspective, aby identyfikować i odfiltrowywać obrazy, które są połączone z tekstem uznanym za obraźliwy, obsceniczny, nienawistny lub w inny sposób toksyczny.
  • Filtrowanie danych osobowych w tekście: w celu ochrony prywatności osób użyliśmy interfejsu Cloud Data Loss Prevention (DLP) API do odfiltrowania pewnych danych osobowych i innych danych wrażliwych. Identyfikatory takie jak numery ubezpieczenia społecznego i inne rodzaje informacji poufnych zostały usunięte.
  • Dodatkowe metody: filtrowanie według jakości i bezpieczeństwa treści zgodnie z naszymi zasadami i praktykami.

Informacje o wdrożeniu

Sprzęt

PaliGemma 2 została wyszkolona przy użyciu sprzętu Tensor Processing Unit (TPU) najnowszej generacji (TPUv5e).

Oprogramowanie

Szkolenie zostało ukończone za pomocą JAX, Flax, TFDS i big_vision.

JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i skuteczniej trenować duże modele.

TFDS służy do uzyskiwania dostępu do zbiorów danych, a Flax – do tworzenia architektury modelu. Kod do dostosowania do potrzeb konkretnego przypadku użycia i kod do wnioskowania w ramach PaliGemma 2 są dostępne w repozytorium GitHub big_vision.

Informacje o ocenie

Wyniki testu porównawczego

Aby sprawdzić, czy model PaliGemma 2 można stosować do różnych zadań akademickich, dopracowujemy wstępnie wytrenowane modele pod kątem każdego zadania. Raportujemy wyniki dla różnych rozdzielczości, aby pokazać, które zadania korzystają z większej rozdzielczości. Co ważne, żadne z tych zadań ani zbiorów danych nie są częścią mieszaniny danych do wstępnego trenowania, a ich obrazy są wyraźnie usuwane ze zbiorów danych do wstępnego trenowania na potrzeby skali internetowej.

Wyniki PaliGemma 2 według rozdzielczości i rozmiaru modelu

Test porównawczy 224-3B 224-10B 224-28B 448-3B 448-10B 448-28B
AI2D 74,7 83,1 83,2 76,0 84,4 84,6
AOKVQA-DA (val) 64,2 68,9 70,2 67,9 70,8 71,2
AOKVQA-MC (val) 79,7 83,7 84,7 82,5 85,9 87,0
ActivityNet-CAP 34,2 35,9 - - - -
ActivityNet-QA 51,3 53,2 - - - -
COCO-35L (śr. 34) 113,9 115,8 116,5 115,8 117,2 117,2
COCO-35L (en) 138,4 140,8 142,4 140,4 142,4 142,3
COCOcap 141,3 143,7 144,0 143,4 145,0 145,2
ChartQA (śr.) 74,4 74,2 68,9 89,2 90,1 85.1
ChartQA (człowiek) 42,0 48,4 46,8 54,0 66,4 61,3
CountBenchQA 81,0 84,0 86,4 82,0 85,3 87,4
DocVQA (val) 39,9 43,9 44,9 73,6 76,6 76,1
GQA 66,2 67,2 67,3 68.1 68,3 68,3
InfoVQA (val) 25,2 33,6 36,4 37,5 47,8 46,7
MARVL (średnia5) 83,5 89,5 90,6 82,7 89,1 89,7
MSRVTT-CAP 68,5 72.1 - - - -
MSRVTT-QA 50,5 51,9 - - - -
MSVD-QA 61.1 62,5 - - - -
NLVR2 91,4 93,9 94,2 91,6 93,7 94,1
NoCaps 123,1 126,3 127.1 123,5 126,9 127,0
OCR-VQA 73,4 74,7 75,3 75,7 76,3 76,6
OKVQA 64,2 68,0 71,2 64.1 68,6 70,6
RSVQA-hr (test) 92,7 92,6 92,7 92,8 92,8 92,8
RSVQA-hr (test2) 90,9 90,8 90,9 90,7 90,7 90,8
RSVQA-lr 93,0 92,8 93,5 92,7 93.1 93,7
RefCOCO (testA) 75,7 77,2 76,8 78,6 79,7 79,3
RefCOCO (testB) 71,0 74,2 73,9 73,5 76,2 74,8
RefCOCO (val) 73,4 75,9 75,0 76,3 78,2 77,3
RefCOCO+ (testA) 72,7 74,7 73,6 76,1 77,7 76,6
RefCOCO+ (testB) 64,2 68,4 67,1 67,0 71.1 68,6
RefCOCO+ (val) 68,6 72,0 70,3 72.1 74,4 72,8
RefCOCOg (test) 69,0 71,9 70,7 72,7 74,8 73,7
RefCOCOg (val) 68,3 71,4 70,5 72,3 74,4 73,0
ST-VQA (val) 61,9 64,3 65.1 80,5 82,0 81,8
SciCap 165.1 159,5 156,9 183,3 177,2 172,7
ScienceQA 96,1 98,2 98,2 96,2 98,5 98,6
Screen2Words 113,3 117,8 122,8 114,0 119,1 123,4
TallyQA (kompleksowy) 70,3 73,4 74,2 73,6 76,7 76,8
TallyQA (prosty) 81,8 83,2 83,4 85,3 86,2 85,7
TextCaps 127,5 137,9 139,9 152.1 157,7 153,6
TextVQA (val) 59,6 64,0 64,7 75,2 76,6 76,2
VATEX 80,8 82,7 - - - -
VQAv2 (minival) 83,0 84,3 84,5 84,8 85,8 85,8
VizWizVQA (val) 76,4 78,1 78,7 77,5 78,6 78,9
WidgetCap 138.1 139,8 138,8 151,4 151,9 148,9
XM3600 (śr. 35) 42,8 44,5 45,2 43,2 44,6 45,2
XM3600 (en) 79,8 80,7 81,0 80,3 81,5 81,0
xGQA (śr.7) 58,6 61,4 61.1 60,4 62,6 62.1

Dodatkowe testy porównawcze

ICDAR 2015 Incidental

Model Precyzja Czułość F1
PaliGemma 2 3B 81,88 70,73 75,9

Total-Text

Model Precyzja Czułość F1
PaliGemma 2 3B 73,8. 74,54 74,17

FinTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 99,18 98,94 99,43 99,21

PubTabNet

Model S-TEDS TEDS GriTS-Top GriTS-Con
PaliGemma 2 3B 97,6 97,31 97,99 97,84

GrandStaff

Model CER LER SER
PaliGemma 2 3B 1,6 6.7 2.3

PubChem

  • PaliGemma 2 3B, dopasowanie pełne: 94,8

DOCCI

Model avg#char avg#sent NES %
PaliGemma 2 3B 529 7,74 28,42
PaliGemma 2 10B 521 7,45 20,27
  • śr#znaków: średnia liczba znaków
  • śr#wysł: średnia liczba zdań
  • NES zdania bez implikacji

MIMIC-CXR

Model CIDEr BLEU4 Rouge-L RadGraph F1
PaliGemma 2 3B 19,9% 14,6% 31,92% 28,8%
PaliGemma 2 10B 17,4% 15% 32,41% 29,5%

Przestrzeń wizualna

Model VSR zeroshot split (test) VSR random split (test)
PaliGemma 2 3B 0,75 0,82
PaliGemma 2 10B 0,80 0,87

Etyka i bezpieczeństwo

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowane oceny pod kątem etyki i bezpieczeństwa w ramach odpowiednich zasad dotyczących treści, w tym:

  • Ocena przez człowieka promptów dotyczących bezpieczeństwa dzieci, bezpieczeństwa treści i szkód związanych z ich przedstawieniem. Więcej informacji o podejmowaniu decyzji o ocenie znajdziesz na karcie modelu Gemma, która zawiera też informacje o dodawaniu podpisów do obrazów i o konfiguracjach odpowiadania na pytania dotyczące obrazów.
  • Ocena porównawcza w przypadku konwersji obrazu na tekst: porównywanie z odpowiednimi zbiorami danych naukowych, takimi jak FairFace Dataset (Karkkainen i in., 2021).

Wyniki oceny

  • Wyniki weryfikacji etycznej i weryfikacji bezpieczeństwa przez człowieka mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści i szkody wynikające z reprezentowania.
  • Oprócz rzetelnych wewnętrznych ocen używamy też interfejsu Perspective API (progresja 0, 8), aby mierzyć toksyczność, wulgaryzmy i inne potencjalne problemy w generowanych opisach obrazów pochodzących z danych FairFace. W przypadku każdego z atrybutów płci, pochodzenia etnicznego i wieku podajemy maksymalne i średnie wartości obserwowane w podgrupach.
Dane Płeć przynależność etniczna, Grupa wiekowa
Rozmiar modelu 3 MLD 10 B 28 B 3 MLD 10 B 28 B 3 MLD 10 B 28 B
Maksimum
Toksyczność 0,14% 0,15% 0,19% 0,29% 0,39% 0,39% 0,26% 0,18% 0,32%
Atak z powodu tożsamości 0,04% 0,02% 0,02% 0,13% 0,06% 0,06% 0,06% 0,03% 0,06%
Znieważenie 0,17% 0,25% 0,17% 0,37% 0,52% 0,52% 0,27% 0,39% 0,24%
Zagrożenie 0,55% 0,43% 0,57% 0,83% 0,48% 0,48% 0,64% 0,43% 0,64%
Wulgaryzmy 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Mediana
Toksyczność 0,13% 0,10% 0,18% 0,07% 0,07% 0,14% 0,12% 0,08% 0,12%
Atak z powodu tożsamości 0,02% 0,01% 0,02% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Znieważenie 0,15% 0,23% 0,14% 0,14% 0,17% 0,13% 0,09% 0,18% 0,16%
Zagrożenie 0,35% 0,27% 0,41% 0,28% 0,19% 0,42% 0,27% 0,31% 0,40%
Wulgaryzmy 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Korzystanie i ograniczenia

Przeznaczenie

Otwarte modele językowe (VLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.

Dostosowanie do konkretnego zadania dotyczącego przetwarzania języka:

  • Wytrenowane wstępnie modele można dostroić do szerokiego zakresu zadań związanych z wizualizacją i językiem, takich jak opisywanie obrazów, tworzenie krótkich podpisów do filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.
  • Wstępnie przetrenowane modele można dostosować do konkretnych dziedzin, takich jak zdalne wykrywanie odpowiedzi na pytania, pytania wizualne od osób niewidomych, odpowiedzi na pytania z zakresu nauk ścisłych czy opisywanie funkcji elementów interfejsu użytkownika.
  • Wytrenowane modele można dostroić do zadań z wynikami nietekstowymi, takimi jak ramki ograniczające czy maski segmentacji.

Badania dotyczące widzenia i języka:

  • Wytrenowane i dostrajone modele mogą służyć jako podstawa do eksperymentowania z technikami VLM, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.

Uwagi i zagrożenia etyczne

Rozwój modeli językowych opartych na widzeniu komputerowym (VLM) budzi pewne wątpliwości natury etycznej. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • VLM trenowane na dużych zbiorach danych z obrazami i tekstem pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia kulturowe i społeczne zawarte w materiałach szkoleniowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
  • Nieprawdziwe informacje i nieprawidłowe użycie
    • Modele językowe mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modela. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
    • Odpowiedzialnie opracowany otwarty model daje możliwość dzielenia się innowacjami, ponieważ udostępnia technologię VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczania:

  • Przekazywanie uprzedzeń: zalecamy prowadzenie ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzeń przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
  • Złe użycie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego użycia modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które pomagają użytkownikom zgłaszać niewłaściwe wykorzystanie. Zapoznaj się z narzędziami do odpowiedzialnego korzystania z generatywnej AI. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych w celu usunięcia pewnych informacji osobowych i danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.

Ograniczenia

  • Wciąż obowiązują większość ograniczeń dziedziczonych z podstawowych modeli Gemma 2:
    • VLM sprawdzają się lepiej w przypadku zadań, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
    • Język naturalny jest z natury złożony. Systemy VLM mogą mieć problemy z uchwyceniem subtelnych niuansów, sarkazmu lub języka obrazowego.
    • VLM generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
    • Modele VLM korzystają z wzorów statystycznych w języku i obrazach. W niektórych sytuacjach może brakować im zdrowego rozsądku.
  • PaliGemma 2 została zaprojektowana przede wszystkim jako ogólny wstępnie wytrenowany model do dostosowania do specjalistycznych zadań. Dlatego jego wydajność „z wykonywania” lub „bez próby” może być gorsza niż w przypadku modeli zaprojektowanych specjalnie do ogólnego użytku.
  • PaliGemma 2 nie jest chatbotem wieloetapowym. Jest on przeznaczony do jednorazowego wprowadzenia obrazu i tekstu.