Strona modelu: PaliGemma
Materiały i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie modelu
Opis
PaliGemma to wszechstronna i lekka wizualno-językowa (VLM) wielozadaniowa baza danych, która jest inspirowana PaLI-3 i oparta na otwartych komponentach, takich jak model wizyjny SigLIP i model językowy Gemma. Na wejściu otrzymuje obraz i tekst, a na wyjściu generuje tekst, obsługując wiele języków. Model ten został zaprojektowany z myślą o najwyższej wydajności w ramach szerokiego zakresu zadań związanych z językiem i wizualizacją, takich jak dodawanie podpisów do obrazów i krótkich filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.
Architektura modelu
PaliGemma to kompozycja dekodera Transformer i enkodera obrazu Vision Transformer, która ma łącznie 3 mld parametrów. Dekoder tekstu jest inicjowany z Gemma-2B. Koder obrazu jest inicjowany z SigLIP-So400m/14. PaliGemma jest trenowany zgodnie z recepturami PaLI-3.
Wejścia i wyjścia
- Wejście: obraz i ciąg tekstowy, np. prompt do stworzenia podpisu obrazu lub pytanie.
- Wyjście: wygenerowany tekst w odpowiedzi na dane wejściowe, np. podpis pod obrazem, odpowiedź na pytanie, lista współrzędnych prostokąta ograniczającego obiekt lub słowa kodowe służące do podziału na segmenty.
Cytat
@article{
title={PaliGemma: A versatile 3B VLM for transfer},
author={Lucas Beyer and Andreas Steiner and André Susano Pinto and Alexander Kolesnikov and Xiao Wang* and Daniel Salz and Maxim Neumann and Ibrahim Alabdulmohsin and Michael Tschannen and Emanuele Bugliarello and Thomas Unterthiner and Daniel Keysers and Skanda Koppula and Fangyu Liu and Adam Grycner and Alexey Gritsenko and Neil Houlsby and Manoj Kumar and Keran Rong and Julian Eisenschlos and Rishabh Kabra and Matthias Bauer and Matko Bošnjak and Xi Chen and Matthias Minderer and Paul Voigtlaender and Ioana Bica and Ivana Balazevic and Joan Puigcerver and Pinelopi Papalampidi and Olivier Henaff and Xi Xiong and Radu Soricut and Jeremiah Harmsen and Xiaohua Zhai},
year={2024},
journal={arXiv preprint arXiv:2407.07726}
}
Dane modelu
Zbiory danych do wstępnego trenowania
PaliGemma jest wytrenowana wstępnie na podstawie następujących zbiorów danych:
- WebLI: WebLI (Web Language Image) to wielojęzyczny zbiór danych obrazów i tekstów z internetu. Dostępnych jest wiele wersji WebLI, które umożliwiają korzystanie z różnych funkcji modelu, takich jak zrozumienie semantyczne obrazu, lokalizacja obiektów, zrozumienie tekstu w kontekście wizualnym, wielojęzyczność itp.
- CC3M-35L: wyselekcjonowane pary obraz-tekst alternatywny w języku angielskim z witryn internetowych (Sharma i in., 2018). Użyliśmy interfejsu Google Cloud Translation API, aby przetłumaczyć na 34 dodatkowe języki.
- VQ²A-CC3M-35L/VQG-CC3M-35L: podzbiór danych z VQ2A-CC3M (Changpinyo i in., 2022a) w tych samych 34 dodatkowych językach co CC3M-35L za pomocą interfejsu Google Cloud Translation API.
- OpenImages: pytania i odpowiedzi dotyczące wykrywania i rozpoznawania obiektów (Piergiovanni i in., 2022) wygenerowane na podstawie reguł stworzonych ręcznie na podstawie zbioru danych OpenImages.
- WIT: obrazy i teksty zebrane z Wikipedii (Srinivasan i in., 2021).
Filtrowanie danych zgodnie z zasadami odpowiedzialności
W celu przeszkolenia modelu PaliGemma na podstawie czystych danych do WebLI zastosowano te filtry:
- Filtrowanie obrazów o charakterze pornograficznym: ten filtr usuwa obrazy uznane za o charakterze pornograficznym.
- Filtrowanie tekstu pod kątem bezpieczeństwa: identyfikujemy i odfiltrowujemy obrazy, które są połączone z niebezpiecznym tekstem. Niebezpieczny tekst to tekst, który zawiera lub dotyczy obrazów związanych z wykorzystywaniem seksualnym dzieci (CSAI), pornografii, wulgaryzmów lub jest w inny sposób obraźliwy.
- Filtrowanie toksycznych treści: korzystamy z interfejsu API Perspective, aby identyfikować i odfiltrowywać obrazy, które są połączone z tekstem uznanym za obraźliwy, obsceniczny, nienawistny lub w inny sposób toksyczny.
- Filtrowanie danych osobowych w tekście: w celu ochrony prywatności osób użyliśmy interfejsu Cloud Data Loss Prevention (DLP) API do odfiltrowania pewnych danych osobowych i innych danych wrażliwych. Identyfikatory takie jak numery ubezpieczenia społecznego i inne rodzaje informacji poufnych zostały usunięte.
- Dodatkowe metody: filtrowanie według jakości i bezpieczeństwa treści zgodnie z naszymi zasadami i praktykami.
Informacje o wdrożeniu
Sprzęt
Model PaliGemma został wytrenowany przy użyciu sprzętu Tensor Processing Unit (TPU) najnowszej generacji (TPUv5e).
Oprogramowanie
Szkolenie zostało ukończone za pomocą JAX, Flax, TFDS i big_vision
.
JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i skuteczniej trenować duże modele.
TFDS służy do uzyskiwania dostępu do zbiorów danych, a Flax – do tworzenia architektury modelu. Kod do dostosowania do potrzeb konkretnego przypadku użycia i kod do wnioskowania w PaliGemma są dostępne w repozytorium GitHub big_vision
.
Informacje o ocenie
Wyniki testu porównawczego
Aby sprawdzić, czy model PaliGemma nadaje się do różnych zadań akademickich, dopracowujemy wstępnie wytrenowane modele pod kątem każdego zadania. Dodatkowo model miksowania trenujemy na podstawie mieszanki zadań transferu. Wyniki podajemy dla różnych rozdzielczości, aby pokazać, które zadania korzystają z większej rozdzielczości. Co ważne, żadne z tych zadań ani zbiorów danych nie są częścią mieszaniny danych do wstępnego trenowania, a ich obrazy są wyraźnie usuwane ze zbiorów danych do wstępnego trenowania na skalę internetu.
Pojedyncze zadanie (dostosowanie do pojedynczego zadania)
Benchmark (podział na trenujący i testujący) | Dane (podział) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Napisy | ||||
Napisy COCO (train+restval) | CIDEr (val) | 141,92 | 144,60 | |
NoCaps (Ocena przeniesienia napisów COCO) | CIDEr (val) | 121,72 | 123,58 | |
COCO-35L (pociąg) | CIDEr dev (en/avg-34/avg) |
|
|
|
XM3600 (ocena transferu COCO-35L) | CIDEr dev (en/avg-34/avg) |
|
|
|
TextCaps (trenowanie) | CIDEr (val) | 127,48 | 153,94 | |
SciCap (pierwsze zdanie, bez podfigury) (train+val) | CIDEr/BLEU-4 (test) |
|
|
|
Screen2words (train+dev) | CIDEr (test) | 117,57 | 119,59 | |
Napisy w widżetach (trenowanie i rozwój) | CIDEr (test) | 136,07 | 148,36 | |
Odpowiadanie na pytania | ||||
VQAv2 (trening i weryfikacja) | Dokładność (serwer testowy – odchylenie standardowe) | 83,19 | 85,64 | |
MMVP (ocena przeniesienia VQAv2) | Dokładność parowania | 47,33 | 45,33 | |
POPE (ocena przeniesienia VQAv2) | Dokładność (losowa/popularna/adwersyjna) |
|
|
|
OKVQA (trenowanie) | Dokładność (val) | 63,54 | 63,15 | |
A-OKVQA (MC) (train+val) | Dokładność (serwer testowy) | 76,37 | 76,90 | |
A-OKVQA (DA) (train+val) | Dokładność (serwer testowy) | 61,85 | 63,22 | |
GQA (train_balanced+val_balanced) | Dokładność (testdev zrównoważony) | 65,61 | 67,03 | |
xGQA (przeniesienie GQA do oceny) | Średnia dokładność (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (trening i testowanie) | Dokładność (test) | 90,02 | 88,93 | |
MaRVL (ocena przenoszenia NLVR2) | Średnia dokładność (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (trenowanie) | Dokładność (test) | 72,12 | 73,28 | |
ScienceQA (podzbiór Img, bez CoT) (trening+val) | Dokładność (test) | 95,39 | 95,93 | |
RSVQA-LR (niecyfrowy) (trening+test) | Średnia dokładność (test) | 92,65 | 93,11 | |
RSVQA-HR (niecyfrowy) (train+val) | Średnia dokładność (test/test2) |
|
|
|
ChartQA (human+aug)x(train+val) | Średnia dokładność z łatwym dopasowaniem (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (train+val) | Dokładność (serwer testowy – odchylenie standardowe) | 73,7 | 75,52 | |
TallyQA (trenuje) | Dokładność (test_simple/test_complex) |
|
|
|
OCR-VQA (trenowanie i weryfikowanie) | Dokładność (test) | 72,32 | 74,61 | 74,93 |
TextVQA (train+val) | Dokładność (serwer testowy – odchylenie standardowe) | 55,47 | 73,15 | 76,48 |
DocVQA (train+val) | ANLS (serwer testowy) | 43,74 | 78,02 | 84,77 |
Infographic VQA (train+val) | ANLS (serwer testowy) | 28,46 | 40,47 | 47,75 |
SceneText VQA (train+val) | ANLS (serwer testowy) | 63,29 | 81,82 | 84,40 |
Podział na segmenty | ||||
RefCOCO (połączone dane z refcoco, refcoco+ i refcocog z wyłączeniem obrazów val i test). | MIoU (validation) refcoco/refcoco+/refcocog |
|
|
|
Zadania dotyczące filmów (napisy/kontrola jakości) | ||||
MSR-VTT (napisy) | CIDEr (test) | 70,54 | ||
MSR-VTT (QA) | Dokładność (test) | 50,09 | ||
ActivityNet (napisy) | CIDEr (test) | 34,62 | ||
ActivityNet (QA) | Dokładność (test) | 50,78 | ||
VATEX (napisy) | CIDEr (test) | 79,73 | ||
MSVD (QA) | Dokładność (test) | 60,22 |
Model mieszaniny (dostrajanie na podstawie mieszaniny zadań transferu)
Test porównawczy | Dane (podział) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Dokładność parowania | 46 | 45,33 |
POPE | Dokładność (losowa/popularna/adwersyjna) |
|
|
Etyka i bezpieczeństwo
Metoda oceny
Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:
- Ocena przez człowieka promptów dotyczących bezpieczeństwa dzieci, bezpieczeństwa treści i szkód związanych z ich przedstawieniem. Więcej informacji o podejmowaniu decyzji znajdziesz na karcie modelu Gemma, która zawiera opisy obrazów i ustawienia odpowiedzi na pytania dotyczące obrazów.
- Ocena porównawcza przetwarzania obrazu na tekst: porównywanie z odpowiednimi zbiorami danych naukowych, takimi jak FairFace Dataset (Karkkainen i in., 2021).
Wyniki oceny
- Wyniki weryfikacji etycznej i weryfikacji bezpieczeństwa przez człowieka mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści i szkody wynikające z reprezentowania.
- Oprócz rygorystycznych wewnętrznych ocen używamy też interfejsu Perspective API (wartość progowa 0, 8), aby mierzyć toksyczność, wulgaryzmy i inne potencjalne problemy w generowanych opisach obrazów pochodzących z danych FairFace. W przypadku każdego z atrybutów płci, pochodzenia etnicznego i wieku podajemy maksymalne i średnie wartości obserwowane w podgrupach.
Dane | Postrzegana płeć | przynależność etniczna, | Grupa wiekowa | |||
---|---|---|---|---|---|---|
Maksimum | Mediana | Maksimum | Mediana | Maksimum | Mediana | |
Toksyczne | 0,04% | 0,03% | 0,08% | 0,00% | 0,09% | 0,00% |
Atak z powodu tożsamości | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Znieważenie | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0,00% |
Zagrożenie | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0,00% |
Wulgaryzmy | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Korzystanie i ograniczenia
Przeznaczenie
Otwarte modele językowe (VLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
Dostosowanie w ramach konkretnego zadania dotyczącego przetwarzania języka:
- Wytrenowane wstępnie modele można dostroić do szerokiego zakresu zadań związanych z wizualizacją i językiem, takich jak opisywanie obrazów, tworzenie krótkich opisów filmów, odpowiadanie na wizualne pytania, czytanie tekstu, wykrywanie obiektów i ich segmentacja.
- Wstępnie przetrenowane modele można dostosować do konkretnych dziedzin, takich jak zdalne wykrywanie odpowiedzi na pytania, pytania wizualne od osób niewidomych, odpowiedzi na pytania z zakresu nauk ścisłych czy opisywanie funkcji elementów interfejsu użytkownika.
- Wytrenowane modele można dostroić do zadań z wynikami nietekstowymi, takimi jak ramki ograniczające czy maski segmentacji.
Badania dotyczące widzenia i języka:
- Wytrenowane i dostrajone modele mogą służyć jako podstawa do eksperymentowania z technikami VLM, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.
Uwagi i zagrożenia etyczne
Rozwój modeli językowych opartych na widzeniu komputerowym (VLM) budzi pewne wątpliwości natury etycznej. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- VLM trenowane na dużych zbiorach danych z obrazami i tekstem pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia kulturowe i społeczne zawarte w materiałach szkoleniowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
- Nieprawdziwe informacje i nieprawidłowe użycie
- Modele językowe mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
- Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modelu. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
- Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
- Odpowiedzialnie opracowany otwarty model daje możliwość dzielenia się innowacjami, ponieważ udostępnia technologię VLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i sposoby ich ograniczania:
- Przekazywanie uprzedzeń: zalecamy prowadzenie ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzeń przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
- Złe wykorzystanie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego wykorzystania modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które pomagają użytkownikom zgłaszać przypadki niewłaściwego wykorzystania. Zapoznaj się z narzędziami do odpowiedzialnego korzystania z generatywnej AI. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
- Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych w celu usunięcia pewnych informacji osobowych i danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.
Ograniczenia
- Wciąż obowiązują większość ograniczeń dziedziczonych z podstawowego modelu Gemma:
- VLM sprawdzają się lepiej w przypadku zadań, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
- Język naturalny jest z natury złożony. Systemy VLM mogą mieć problemy z uchwyceniem subtelnych niuansów, sarkazmu lub języka obrazowego.
- VLM generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
- Modele VLM korzystają z wzorców statystycznych w języku i obrazach. W niektórych sytuacjach może brakować im zdrowego rozsądku.
- PaliGemma została zaprojektowana przede wszystkim jako ogólny wstępnie wytrenowany model do dostosowania do specjalistycznych zadań. Dlatego jego skuteczność „od razu po zainstalowaniu” lub „bez uczenia” może być gorsza niż w przypadku modeli zaprojektowanych specjalnie do ogólnego użytku.
- PaliGemma nie jest chatbotem wieloetapowym. Jest on przeznaczony do jednokrotnego wprowadzania tekstu i obrazów.