Karta modelu PaliGemma 1

Strona modelu: PaliGemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

PaliGemma to wszechstronna i lekka wizualno-językowa (VLM) wielozadaniowa baza danych, która jest inspirowana PaLI-3 i oparta na otwartych komponentach, takich jak model wizyjny SigLIPmodel językowy Gemma. Na wejściu otrzymuje obraz i tekst, a na wyjściu generuje tekst, obsługując wiele języków. Model ten został zaprojektowany z myślą o najwyższej wydajności w ramach szerokiego zakresu zadań związanych z językiem i wizualizacją, takich jak dodawanie podpisów do obrazów i krótkich filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.

Architektura modelu

PaliGemma to kompozycja dekodera Transformer i enkodera obrazu Vision Transformer, która ma łącznie 3 mld parametrów. Dekoder tekstu jest inicjowany z Gemma-2B. Koder obrazu jest inicjowany z SigLIP-So400m/14. PaliGemma jest trenowany zgodnie z recepturami PaLI-3.

Wejścia i wyjścia

  • Wejście: obraz i ciąg tekstowy, np. prompt do stworzenia podpisu obrazu lub pytanie.
  • Wyjście: wygenerowany tekst w odpowiedzi na dane wejściowe, np. podpis pod obrazem, odpowiedź na pytanie, lista współrzędnych prostokąta ograniczającego obiekt lub słowa kodowe służące do podziału na segmenty.

Cytat

@article{
    title={PaliGemma: A versatile 3B VLM for transfer},
    author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2407.07726}
}

Dane modelu

Zbiory danych do wstępnego trenowania

PaliGemma jest wytrenowana wstępnie na podstawie następujących zbiorów danych:

Filtrowanie danych zgodnie z zasadami odpowiedzialności

W celu przeszkolenia modelu PaliGemma na podstawie czystych danych do WebLI zastosowano te filtry:

  • Filtrowanie obrazów o charakterze pornograficznym: ten filtr usuwa obrazy uznane za o charakterze pornograficznym.
  • Filtrowanie tekstu pod kątem bezpieczeństwa: identyfikujemy i odfiltrowujemy obrazy, które są połączone z niebezpiecznym tekstem. Niebezpieczny tekst to tekst, który zawiera lub dotyczy obrazów związanych z wykorzystywaniem seksualnym dzieci (CSAI), pornografii, wulgaryzmów lub jest w inny sposób obraźliwy.
  • Filtrowanie toksycznych treści: korzystamy z interfejsu API Perspective, aby identyfikować i odfiltrowywać obrazy, które są połączone z tekstem uznanym za obraźliwy, obsceniczny, nienawistny lub w inny sposób toksyczny.
  • Filtrowanie danych osobowych w tekście: w celu ochrony prywatności osób użyliśmy interfejsu Cloud Data Loss Prevention (DLP) API do odfiltrowania pewnych danych osobowych i innych danych wrażliwych. Identyfikatory takie jak numery ubezpieczenia społecznego i inne rodzaje informacji poufnych zostały usunięte.
  • Dodatkowe metody: filtrowanie według jakości i bezpieczeństwa treści zgodnie z naszymi zasadami i praktykami.

Informacje o wdrożeniu

Sprzęt

Model PaliGemma został wytrenowany przy użyciu sprzętu Tensor Processing Unit (TPU) najnowszej generacji (TPUv5e).

Oprogramowanie

Szkolenie zostało ukończone za pomocą JAX, Flax, TFDS i big_vision.

JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i skuteczniej trenować duże modele.

TFDS służy do uzyskiwania dostępu do zbiorów danych, a Flax – do tworzenia architektury modelu. Kod do dostosowania do potrzeb konkretnego przypadku użycia i kod do wnioskowania w PaliGemma są dostępne w repozytorium GitHub big_vision.

Informacje o ocenie

Wyniki testu porównawczego

Aby sprawdzić, czy model PaliGemma nadaje się do różnych zadań akademickich, dopracowujemy wstępnie wytrenowane modele pod kątem każdego zadania. Dodatkowo model miksowania trenujemy na podstawie mieszanki zadań transferu. Wyniki podajemy dla różnych rozdzielczości, aby pokazać, które zadania korzystają z większej rozdzielczości. Co ważne, żadne z tych zadań ani zbiorów danych nie są częścią mieszaniny danych do wstępnego trenowania, a ich obrazy są wyraźnie usuwane ze zbiorów danych do wstępnego trenowania na skalę internetu.

Pojedyncze zadanie (dostosowanie do pojedynczego zadania)

Benchmark (podział na trenujący i testujący) Dane (podział) pt-224 pt-448 pt-896
Napisy
Napisy COCO (train+restval) CIDEr (val) 141,92 144,60
NoCaps (Ocena przeniesienia napisów COCO) CIDEr (val) 121,72 123,58
COCO-35L (pociąg) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141.2
118.0
118.6
XM3600 (ocena transferu COCO-35L) CIDEr dev (en/avg-34/avg)
78.1
41.3
42.4
80,0
41,9
42,9
TextCaps (trenowanie) CIDEr (val) 127,48 153,94
SciCap (pierwsze zdanie, bez podfigury) (train+val) CIDEr/BLEU-4 (test)
162.25
0.192
181.49
0.211
Screen2words (train+dev) CIDEr (test) 117,57 119,59
Napisy w widżetach (trenowanie i rozwój) CIDEr (test) 136,07 148,36
Odpowiadanie na pytania
VQAv2 (trening i weryfikacja) Dokładność (serwer testowy – odchylenie standardowe) 83,19 85,64
MMVP (ocena przeniesienia VQAv2) Dokładność parowania 47,33 45,33
POPE (ocena przeniesienia VQAv2) Dokładność (losowa/popularna/adwersyjna)
87,80
85,87
84,27
88.23
86.77
85.90
OKVQA (trenowanie) Dokładność (val) 63,54 63,15
A-OKVQA (MC) (train+val) Dokładność (serwer testowy) 76,37 76,90
A-OKVQA (DA) (train+val) Dokładność (serwer testowy) 61,85 63,22
GQA (train_balanced+val_balanced) Dokładność (testdev zrównoważony) 65,61 67,03
xGQA (przeniesienie GQA do oceny) Średnia dokładność (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (trening i testowanie) Dokładność (test) 90,02 88,93
MaRVL (ocena przenoszenia NLVR2) Średnia dokładność (test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (trenowanie) Dokładność (test) 72,12 73,28
ScienceQA (podzbiór Img, bez CoT) (trening+val) Dokładność (test) 95,39 95,93
RSVQA-LR (niecyfrowy) (trening+test) Średnia dokładność (test) 92,65 93,11
RSVQA-HR (niecyfrowy) (train+val) Średnia dokładność (test/test2)
92,61
90,58
92,79
90,54
ChartQA (human+aug)x(train+val) Średnia dokładność z łatwym dopasowaniem (test_human, test_aug) 57,08 71,36
VizWiz VQA (train+val) Dokładność (serwer testowy – odchylenie standardowe) 73,7 75,52
TallyQA (trenuje) Dokładność (test_simple/test_complex)
81,72
69,56
84,86
72,27
OCR-VQA (trenowanie i weryfikowanie) Dokładność (test) 72,32 74,61 74,93
TextVQA (train+val) Dokładność (serwer testowy – odchylenie standardowe) 55,47 73,15 76,48
DocVQA (train+val) ANLS (serwer testowy) 43,74 78,02 84,77
Infographic VQA (train+val) ANLS (serwer testowy) 28,46 40,47 47,75
SceneText VQA (train+val) ANLS (serwer testowy) 63,29 81,82 84,40
Podział na segmenty
RefCOCO (połączone dane z refcoco, refcoco+ i refcocog z wyłączeniem obrazów val i test). MIoU (validation) refcoco/refcoco+/refcocog
73,40
68,32
67,65
75,57
69,76
70,17
76,94
72,18
72,22
Zadania dotyczące filmów (napisy/kontrola jakości)
MSR-VTT (napisy) CIDEr (test) 70,54
MSR-VTT (QA) Dokładność (test) 50,09
ActivityNet (napisy) CIDEr (test) 34,62
ActivityNet (QA) Dokładność (test) 50,78
VATEX (napisy) CIDEr (test) 79,73
MSVD (QA) Dokładność (test) 60,22

Model mieszaniny (dostrajanie na podstawie mieszaniny zadań transferu)

Test porównawczy Dane (podział) mix-224 mix-448
MMVP Dokładność parowania 46 45,33
POPE Dokładność (losowa/popularna/adwersyjna)
88,00
86,63
85,67
89,37
88,40
87,47

Etyka i bezpieczeństwo

Metoda oceny

Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:

  • Ocena przez człowieka promptów dotyczących bezpieczeństwa dzieci, bezpieczeństwa treści i szkód związanych z ich przedstawieniem. Więcej informacji o podejmowaniu decyzji znajdziesz na karcie modelu Gemma, która zawiera opisy obrazów i ustawienia odpowiedzi na pytania dotyczące obrazów.
  • Ocena porównawcza przetwarzania obrazu na tekst: porównywanie z odpowiednimi zbiorami danych naukowych, takimi jak FairFace Dataset (Karkkainen i in., 2021).

Wyniki oceny

  • Wyniki weryfikacji etycznej i weryfikacji bezpieczeństwa przez człowieka mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści i szkody wynikające z reprezentowania.
  • Oprócz rygorystycznych wewnętrznych ocen używamy też interfejsu Perspective API (wartość progowa 0, 8), aby mierzyć toksyczność, wulgaryzmy i inne potencjalne problemy w generowanych opisach obrazów pochodzących z danych FairFace. W przypadku każdego z atrybutów płci, pochodzenia etnicznego i wieku podajemy maksymalne i średnie wartości obserwowane w podgrupach.
Dane Postrzegana płeć przynależność etniczna, Grupa wiekowa
Maksimum Mediana Maksimum Mediana Maksimum Mediana
Toksyczne 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Atak z powodu tożsamości 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Znieważenie 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Zagrożenie 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Wulgaryzmy 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Korzystanie i ograniczenia

Przeznaczenie

Otwarte modele językowe (VLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.

Dostosowanie w ramach konkretnego zadania dotyczącego przetwarzania języka:

  • Wytrenowane wstępnie modele można dostroić do szerokiego zakresu zadań związanych z wizualizacją i językiem, takich jak opisywanie obrazów, tworzenie krótkich opisów filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.
  • Wstępnie przetrenowane modele można dostosować do konkretnych dziedzin, takich jak zdalne wykrywanie odpowiedzi na pytania, pytania wizualne od osób niewidomych, odpowiedzi na pytania z zakresu nauk ścisłych czy opisywanie funkcji elementów interfejsu użytkownika.
  • Wytrenowane modele można dostroić do zadań z wynikami nietekstowymi, takimi jak ramki ograniczające czy maski segmentacji.

Badania dotyczące widzenia i języka:

  • Wytrenowane i dostrajone modele mogą służyć jako podstawa do eksperymentowania z technikami VLM, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.

Uwagi i zagrożenia etyczne

Rozwój modeli językowych opartych na widzeniu komputerowym (VLM) budzi pewne wątpliwości natury etycznej. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • VLM trenowane na dużych zbiorach danych z obrazami i tekstem pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia kulturowe i społeczne zawarte w materiałach szkoleniowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
  • Nieprawdziwe informacje i nieprawidłowe użycie
    • Modele językowe mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modelu. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
    • Odpowiedzialnie opracowany otwarty model daje możliwość dzielenia się innowacjami, ponieważ udostępnia technologię VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczania:

  • Przekazywanie uprzedzeń: zalecamy prowadzenie ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzeń przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
  • Złe wykorzystanie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego wykorzystania modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które pomagają użytkownikom zgłaszać przypadki niewłaściwego wykorzystania. Zapoznaj się z narzędziami do odpowiedzialnego korzystania z generatywnej AI. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych w celu usunięcia pewnych informacji osobowych i danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.

Ograniczenia

  • Wciąż obowiązują większość ograniczeń dziedziczonych z podstawowego modelu Gemma:
    • VLM sprawdzają się lepiej w przypadku zadań, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
    • Język naturalny jest z natury złożony. Systemy VLM mogą mieć problemy z uchwyceniem subtelnych niuansów, sarkazmu lub języka obrazowego.
    • VLM generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
    • Modele VLM korzystają z wzorców statystycznych w języku i obrazach. W niektórych sytuacjach może brakować im zdrowego rozsądku.
  • PaliGemma została zaprojektowana przede wszystkim jako ogólny wstępnie wytrenowany model do dostosowania do specjalistycznych zadań. Dlatego jego skuteczność „od razu po zainstalowaniu” lub „bez uczenia” może być gorsza niż w przypadku modeli zaprojektowanych specjalnie do ogólnego użytku.
  • PaliGemma nie jest chatbotem wieloetapowym. Jest on przeznaczony do jednokrotnego wprowadzania tekstu i obrazów.