Karta modelu PaliGemma

Strona modelu: PaliGemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

PaliGemma to uniwersalny i lekki model wizyjny (VLM) zainspirowany PaLI-3 i oparty na otwartych komponentach, takich jak model wizyjny SigLIP i Gemma model językowy. Wykorzystuje zarówno obraz, jak i tekst, a jako dane wyjściowe generuje tekst, który obsługuje wiele języków. Została zaprojektowana z myślą o najlepszym w swojej klasie precyzyjnej obsłudze szerokiej gamy zadań w zakresie języka wizualnego, takich jak tworzenie opisów obrazów i krótkich filmów, odpowiadanie na pytania wizualne, odczytywanie tekstu, wykrywanie obiektów i podział na segmenty.

Architektura modelu

PaliGemma to kompozycja dekodera Transformera i kodera obrazów Vision Transformer, które mają łącznie 3 miliardy parametrów. Dekoder tekstu jest inicjowany z Gemma-2B. Koder obrazów jest inicjowany ze źródła SigLIP-So400m/14. PaliGemma jest trenowana zgodnie z przepisami PaLI-3.

Wejścia i wyjścia

  • Dane wejściowe:obraz i ciąg tekstowy, np. prompt dla obrazu lub pytanie.
  • Dane wyjściowe: tekst wygenerowany w odpowiedzi na wprowadzone dane, np. podpis obrazu, odpowiedź na pytanie, lista współrzędnych ramek ograniczających obiekty lub słowa kodowe podziału na segmenty.

Dane modelu

Wstępne trenowanie zbiorów danych

Narzędzie PaliGemma zostało wstępnie wytrenowane na tej mieszance zbiorów danych:

  • WebLI: WebLI (Web Language Image) to wielojęzyczny zbiór danych graficznych/tekstowych stworzony na podstawie publicznej sieci. Do uzyskiwania wszechstronnych możliwości modelu, takich jak wizualne rozumienie semantyki, lokalizacja obiektów, rozumienie tekstu w kontekście wizualnym, wielojęzyczność itp., używa się szerokiej gamy podziałów WebLI.
  • CC3M-35L: wybrane w języku angielskim pary obraz/tekst alternatywny ze stron internetowych (Sharma i in., 2018). Użyliśmy interfejsu Google Cloud Translation API do tłumaczenia na 34 dodatkowe języki.
  • VQ²A-CC3M-35L/VQG-CC3M-35L: podzbiór VQ2A-CC3M (Changpinyo i in., 2022a), przetłumaczony na 34 dodatkowe języki co w przypadku wersji CC3M-35L, za pomocą interfejsu Google Cloud Translation API.
  • OpenImages: pytania i odpowiedzi oparte na wykrywaniu i obiektywu (Piergiovanni i in. 2022) wygenerowane przez ręcznie utworzone reguły w zbiorze danych OpenImages.
  • WIT: obrazy i teksty zebrane z Wikipedii (Srinivasan i in., 2021).

Filtrowanie odpowiedzialności za dane

Do WebLI stosowane są te filtry, które mają na celu wytrenowanie PaliGemma na czystych danych:

  • Filtrowanie obrazów pornograficznych: ten filtr usuwa obrazy o charakterze pornograficznym.
  • Filtrowanie bezpieczeństwa tekstu: identyfikujemy i odfiltrowujemy obrazy powiązane z niebezpiecznym tekstem. Niebezpieczny tekst to wszelkie teksty, które zawierają materiały CSAI, pornografię, przekleństwa lub w inny sposób obraźliwe.
  • Filtrowanie toksyczności tekstu: dalej używamy interfejsu Perspective API do identyfikowania i odfiltrowywania obrazów, które zostały połączone z tekstem uznawanym za obraźliwy, obsceniczny, nienawistny lub toksyczny.
  • Filtrowanie danych osobowych przez SMS-y: niektóre dane osobowe i inne dane wrażliwe zostały odfiltrowane za pomocą interfejsu Cloud Data Loss Prevention (DLP) API, aby chronić prywatność osób. Identyfikatory takie jak numery PESEL i inne typy informacji poufnych zostały usunięte.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami i metodami.

Informacje o implementacji

Sprzęt

Szkolenie PaliGemma zostało przeszkolone z użyciem najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e).

Oprogramowanie

Trenowanie odbyło się przy użyciu narzędzi JAX, Flax, TFDS i big_vision.

JAX umożliwia badaczom wykorzystanie sprzętu najnowszej generacji, w tym TPU, do szybszego i efektywniejszego trenowania dużych modeli.

Do uzyskiwania dostępu do zbiorów danych służy TFDS, a do architektury modeli – technologia Flax. Kod dostrajania i kod wnioskowania PaliGemma są publikowane w repozytorium big_vision na GitHubie.

Informacje o ocenie

Wyniki testu porównawczego

Aby sprawdzić możliwość przeniesienia PaliGemma do różnych zadań akademickich, dopracowujemy wstępnie wytrenowane modele do każdego zadania. Dodatkowo trenujemy model mieszania z kombinacją zadań transferu. Raportujemy wyniki dotyczące różnych rozdzielczości, aby pokazać, które zadania mogą skorzystać na wyższej rozdzielczości. Co ważne, żadne z tych zadań ani zbiorów danych nie wchodzą w skład mieszaniny danych na potrzeby wstępnego trenowania, a ich obrazy są wyraźnie usuwane z tych danych.

Pojedyncze zadanie (dostrój jedno zadanie)

Test porównawczy (podział pociąg) Dane (podział) pt-224 pt-448 pt-896
Napisy
Napisy COCO (pociąg + przesiadka) CIDEr (wartość) 141,92 144,60
NoCaps (Ocena przenoszenia napisów COCO) CIDEr (wartość) 121,72 123,58
COCO-35L (pociąg) CIDEr dev (en/avg-34/avg)
139,2
115,8
116,4
141,2
118,0
118,6
XM3600 (ocena przenoszenia COCO-35L) CIDEr dev (en/avg-34/avg)
78,1
41,3
42,4
80,0
41,9
42,9
TextCaps (pociąg) CIDEr (wartość) 127,48 153,94
SciCap (pierwsze zdanie, bez podfiguracji) (pociąg+wartość) CIDEr/BLEU-4 (testowy)
162,25
0,192
181,49
0,211
Screen2words (train+dev) CIDEr (testowy) 117,57 119,59
Napisy widżetu (pociąg+dev) CIDEr (testowy) 136,07 148,36
Odpowiadanie na pytania
VQAv2 (trenowanie+weryfikacja) Dokładność (serwer testowy – std) 83,19 85,64
MMVP (Ocena transferu VQAv2) Dokładność sparowania 47,33 45,33
POPE (Ocena przesyłania VQAv2) Dokładność (losowe/popularne/kontrowersyjne)
87,80
85,87
84,27
88,23
86,77
85,90
OKVQA (pociąg) Dokładność (wartość) 63,54 63,15
A-OKVQA (MC) (pociąg + wartość) Dokładność (serwer testów) 76,37 76,90
A-OKVQA (DA) (pociąg+wartość) Dokładność (serwer testów) 61,85 63,22
GQA (train_balanced+val_balanced) Dokładność (zrównoważone narzędzie testdev) 65,61 67,03
xGQA (Ocena transferu GQA) Średnia dokładność (bn, de, en, id, ko, pt, ru, zh) 58,37 59,07
NLVR2 (pociąg+dev) Dokładność (test) 90,02 88,93
MaRVL (Ocena transferu NLVR2) Średnia dokładność (test) (id, sw, ta, tr, zh) 80,57 76,78
AI2D (pociąg) Dokładność (test) 72,12 73,28
ScienceQA (podzbiór Img, brak CoT) (pociąg+wartość) Dokładność (test) 95,39 95,93
RSVQA-LR (inne niż liczbowe) (ciąg+wartość) Średnia dokładność (test) 92,65 93,11
RSVQA-HR (bez wartości liczbowych) (naciąg+wartość) Średnia dokładność (test/test2)
92,61
90,58
92,79
90,54
ChartQA (człowiek+sierpień)x(pociąg+wartość) Średnia dokładność zrelaksowana (test_human, test_aug) 57,08 71,36
VizWiz VQA (pociąg + wartość) Dokładność (serwer testowy – std) 73,7 75,52
TallyQA (pociąg) Dokładność (prosty_test/złożony_test)
81,72
69,56
84,86
72,27
OCR-VQA (trenowanie+wartość) Dokładność (test) 72,32 74,61 74,93
TextVQA (pociąg+val) Dokładność (serwer testowy – std) 55,47 73,15 76,48
DocVQA (pociąg+val) ANLS (serwer testowy) 43,74 78,02 84,77
Infografika VQA (pociąg+wartość) ANLS (serwer testowy) 28,46 40,47 47,75
SceneText VQA (pociąg+wartość) ANLS (serwer testowy) 63,29 81,82 84,40
Podział na segmenty
RefCOCO (połączone obrazy refcoco, refcoco+, refcocog z wyłączeniem obrazów wartościowych i testowych) MIoU (weryfikacja) refcoco/refcoco+/refcocog
73,40
68.32
67.65
75,57
69,76
70,17
76,94
72.18
72.22
Zadania wideo (napisy/kontrola jakości)
MSR-VTT (napisy) CIDEr (testowy) 70,54
MSR-VTT (QA) Dokładność (test) 50,09
ActivityNet (napisy) CIDEr (testowy) 34,62
ActivityNet (QA) Dokładność (test) 50,78
VATEX (napisy) CIDEr (testowy) 79,73
MSVD (kontrola jakości) Dokładność (test) 60,22

Mieszanie modelu (dostrój mieszankę zadań związanych z przesyłaniem)

Analiza porównawcza Dane (podział) mix-224 mix-448
MMVP Dokładność sparowania 46 45,33
POPE Dokładność (losowe/popularne/kontrowersyjne)
88,00
86,63
85,67
89,37
88,40
87,47

Etyka i bezpieczeństwo

Metoda oceniania

Nasze metody oceny obejmują ustrukturyzowane oceny i wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły Czerwone były prowadzone przez różne zespoły, każdy z innymi celami i wskaźnikami oceny manualnej. Modele te były oceniane według różnych kategorii związanych z etyką i bezpieczeństwem, w tym:

  • Ocena manualna promptów dotyczących bezpieczeństwa dzieci, bezpieczeństwa treści i szkodliwości wynikających z reprezentacji. Na karcie modelu Gemma znajdziesz więcej informacji o metodzie oceny, w tym także podpisy obrazów i konfiguracje wizualnego odpowiadania na pytania.
  • Porównanie obrazów z tekstem: analiza porównawcza z odpowiednimi zbiorami danych akademickimi, takimi jak zbiór danych FairFace (Karkkainen i in., 2021).

Wyniki oceny

  • Wyniki oceny etyki i bezpieczeństwa przeprowadzone przez człowieka mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści czy szkodliwość reprezentacji.
  • Oprócz rzetelnych ocen wewnętrznych używamy też Perspective API (progu 0,8) do mierzenia toksyczności, wulgaryzmów i innych potencjalnych problemów w wygenerowanych napisach w przypadku obrazów pochodzących ze zbioru danych FairFace. Raportujemy maksymalne i mediany zaobserwowane w podgrupach dla każdej postrzeganej płci, przynależności etnicznej i wieku.
Wskaźnik Postrzegana płeć przynależność etniczna, Grupa wiekowa
Maksimum Mediana Maksimum Mediana Maksimum Mediana
Toksyczność 0,04% 0,03% 0,08% 0,00% 0,09% 0,00%
Atak z powodu tożsamości 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%
Znieważenie 0,06% 0,04% 0,09% 0,07% 0,16% 0,00%
Zagrożenie 0,06% 0,05% 0,14% 0,05% 0,17% 0,00%
Wulgaryzmy 0,00% 0,00% 0,00% 0,00% 0,00% 0,00%

Użytkowanie i ograniczenia

Zamierzone wykorzystanie

Modele Open Vision Language Models (VLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista zawiera informacje kontekstowe na temat możliwych przypadków użycia, które twórcy modeli uwzględniali w trakcie trenowania i tworzenia modelu.

Dostosuj zadania do określonego języka:

  • Wytrenowane modele można dostroić do szerokiej gamy zadań związanych z rozpoznawaniem, takich jak tworzenie napisów do obrazów, tworzenie krótkich napisów w filmach, odpowiadanie na pytania wizualne, odczytywanie tekstu, wykrywanie obiektów i podział na segmenty.
  • Wytrenowane modele mogą być dostrojone pod kątem określonych domen, np. odpowiadanie na pytania za pomocą zdalnego wykrywania, pytania wizualne od niewidomych, odpowiadanie na pytania naukowe, opisywanie funkcji elementów interfejsu.
  • Wytrenowane modele można dostroić do zadań z wyjściami nietekstowymi, takimi jak ramki ograniczające czy maski segmentacji.

Badania nad rozpoznaniem języka:

  • Wytrenowane i dostrojone modele mogą służyć za podstawę do eksperymentowania z technikami VLM, opracowywania algorytmów i wspierania rozwoju tej dziedziny.

Zagrożenia i kwestie etyczne

Rozwój modeli wizyjnych (VLM) rodzi kilka kwestii etycznych. Tworząc model otwarty, dokładnie wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i uczciwość
    • Nauczane w grupach zawodowych (VLM) trenowane na dużą skalę na podstawie rzeczywistych danych tekstowych obrazów i obrazów mogą odzwierciedlać uprzedzenia socjokulturowe obecne w materiałach szkoleniowych. Modele te zostały dokładnie sprawdzone, opisane na tej karcie wstępnie przetwarzane dane wejściowe oraz przedstawione w kolejnych ocenach.
  • Nieprawdziwe informacje i niewłaściwe użycie
    • VLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, szkodliwy lub wprowadzający w błąd.
    • Udostępniamy wytyczne dotyczące odpowiedzialnego korzystania z modelu. Więcej informacji znajdziesz w zestawie narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o architekturze, możliwościach, ograniczeniach i procesach oceny modeli.
    • Odpowiedzialnie opracowany otwarty model umożliwia dzielenie się innowacjami przez udostępnienie technologii VLM dla programistów i badaczy w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki:

  • Utrwalanie tendencyjności: zachęcamy do ciągłego monitorowania (przy użyciu wskaźników oceny, weryfikacji manualnej) i eksploracji technik unikania tendencyjności podczas trenowania modelu, dostrajania i innych przypadków użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści mają kluczowe znaczenie. Zachęcamy deweloperów do zachowania ostrożności i wdrożenia odpowiednich środków ochrony bezpieczeństwa treści na podstawie konkretnych zasad w usługach i przypadków użycia aplikacji.
  • Niewłaściwe użycie w szkodliwych celach: ograniczenia techniczne oraz edukacja programistów i użytkowników mogą pomóc zmniejszyć ryzyko związane ze złośliwymi aplikacjami LLM. Dostępne są zasoby edukacyjne i mechanizmy do zgłaszania nadużyć, które umożliwiają użytkownikom zgłaszanie nadużyć – patrz: zestaw narzędzi do odpowiedzialnej generatywnej AI. Zabronione zastosowania modeli Gemma zostały opisane w Zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenia prywatności: modele były trenowane na danych filtrowanych w celu usuwania określonych informacji osobistych i danych wrażliwych. Zachęcamy deweloperów do stosowania technik chroniących prywatność, aby przestrzegali przepisów dotyczących prywatności.

Ograniczenia

  • Nadal obowiązuje większość ograniczeń dziedziczonych z podstawowego modelu Gemma:
    • VLM są lepsze w zadaniach, które można wykreować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Język naturalny jest z założenia złożony. VLM mogą mieć problem z uchwyceniem subtelnych niuansów, sarkazmu czy języka symbolicznego.
    • VLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
    • VLM zależą od wzorców statystycznych w języku i obrazach. Mogą też nie być w stanie stosować zdrowego rozsądku w pewnych sytuacjach.
  • PaliGemma opracowano przede wszystkim jako ogólny, wytrenowany model dostrajania do specjalistycznych zadań. Z tego powodu jego wydajność „gotowa” lub „zero-shot” może być niższa niż w przypadku modeli zaprojektowanych specjalnie do tego.
  • PaliGemma nie jest czatbotem wieloetapowym. Chodzi o jedną rundę wprowadzania obrazów i tekstów.