Sprawdź repozytorium Gemma Cookbook, aby poznać przykłady generowania i dostrajania. Więcej informacji

Ta strona została przetłumaczona przez Cloud Translation API.

Karta modelu PaliGemma

Strona modelu: PaliGemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

PaliGemma to uniwersalny i lekki model rozpoznawania mowy (VLM) inspirowany PaLI-3 i oparte na otwartych komponentach, takich jak model wizyjny SigLIP oraz Gemma Zawiera zarówno obraz, jak i tekst jako dane wejściowe i generuje tekst jako dane wyjściowe, obsługując wiele języków. Jest zaprojektowany z myślą o najlepszym w swojej klasie dostosowywaniu wydajności w szerokim zakresie zadania związane z rozpoznawaniem i językiem, takie jak obrazy, napisy do filmów i pytania wizualne przez odczytywanie tekstu, wykrywanie obiektów oraz segmentację obiektów.

Architektura modelu

PaliGemma to kompozycja Transformatora z dekodera i obrazu Vision Transformer oraz 3 miliardy parametrów. Dekoder tekstu został zainicjowany z Gemma-2B. Koder obrazu to zainicjowano z SigLIP-So400m/14. PaliGemma jest trenowany zgodnie z przepisami Pali-3.

Dane wejściowe i wyjściowe

Dane wejściowe: obraz i ciąg tekstowy, np. prompt z podpisem do obrazu, zadaj pytanie.
Dane wyjściowe: tekst wygenerowany w odpowiedzi na dane wejściowe, np. podpis obraz, odpowiedź na pytanie, lista ramki ograniczającej obiekt czy słowa kodowe związane z segmentacją.

Dane modelu

Zbiory danych do trenowania wstępnego

PaliGemma jest wstępnie trenowany na tej kombinacji zbiorów danych:

WebLI: WebLI (Web Language Image) czyli dostępny na dużą skalę w internecie zbiór danych z obrazami i tekstami w różnych językach stworzonych na podstawie publicznej sieci. O obejmuje szeroki zakres podziałów WebLI do uzyskania wszechstronnych możliwości modelu, takie jak wizualne rozumienie semantyczne, lokalizacja obiektów, rozumienie tekstu w sensie wizualnym, wielojęzyczności itd.
CC3M-35L: wybrane pary obrazu i tekstu w języku angielskim ze stron internetowych (Sharma et inne 2018). Skorzystaliśmy z technologii Google Cloud Translation API do translacji na 34 dodatkowych języków.
VQ²A-CC3M-35L/VQG-CC3M-35L: podzbiór VQ2A-CC3M (Changpinyo i in., 2022a), przetłumaczone na język dodatkowe 34 języki co w przypadku CC3M-35L, w przypadku Google Cloud Translation API.
OpenImages: wykrywanie i rozpoznawanie obiektów oraz odpowiedzi na pytania i odpowiedzi (Piergiovanni i in. 2022) wygenerowany przez ręcznie utworzone reguły w zbiorze danych OpenImages.
WIT: obrazy i teksty zebrane z Wikipedii (Srinivasan i in., 2021).

Filtrowanie odpowiedzialności za dane

Poniższe filtry są stosowane do WebLI w celu trenowania PaliGemma na czyste dane:

Filtrowanie obrazów pornograficznych: ten filtr usuwa obrazy uznane za zawierające o charakterze pornograficznym.
Filtrowanie z uwzględnieniem bezpieczeństwa tekstu: identyfikuje i odfiltrowujemy obrazy, które zostały sparowane. z niebezpiecznym tekstem. Niebezpieczny tekst to dowolny tekst, który zawiera lub dotyczy treści materiały wizualne przedstawiające wykorzystywanie seksualne dzieci, pornografię, wulgaryzmy lub inne obraźliwe treści.
Filtrowanie toksyczności tekstu: dalej używamy Perspektywy API do rozpoznawania i odfiltrowywania obrazów, które połączone z tekstem uznawanym za obraźliwy, obsceniczny, szerzący nienawiść lub w inny sposób toksyczny;
Filtrowanie tekstowych danych osobowych: odfiltrowaliśmy niektóre dane osobowe, informacji i innych danych wrażliwych za pomocą usługi Cloud Data Loss Prevention (DLP) do ochrony do prywatności jednostek. Identyfikatory, takie jak numer PESEL, inne typy informacji poufnych zostały usunięte.
Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści w z naszymi zasadami i metodami.

Informacje o wdrażaniu

Sprzęt

Serwis PaliGemma został wytrenowany z wykorzystaniem najnowszej generacji procesora Tensor Sprzęt (TPU) (TPUv5e).

Oprogramowanie

Trenowanie odbywało się w języku JAX. Flax, TFDS oraz big_vision.

JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.

TFDS służy do uzyskiwania dostępu do zbiorów danych, a format Flax jest używany do architektury modelu. Kody do dostrajania i wnioskowania w PaliGemma są udostępniane w big_vision repozytorium GitHub.

Informacje o ocenie

Wyniki testów porównawczych

W celu weryfikacji możliwości przenoszenia witryny PaliGemma na wiele różnych zadań akademickich, dostosowujemy wstępnie wytrenowane modele do każdego zadania. Dodatkowo wytrenować model mieszania, korzystając z kombinacji zadań związanych z przenoszeniem. Wyniki podajemy w raporcie różne rozdzielczości, aby pokazać, które zadania przynoszą korzyści. zwiększona rozdzielczość. Co ważne, żadne z tych zadań ani zbiorów danych nie jest częścią mieszaniny danych wstępnego trenowania, a ich obrazy są jawnie usuwane z w skali internetowej.

Pojedyncze zadanie (dostrojenie do pojedynczego zadania)

Test porównawczy (podział pociągu)	Wskaźnik (podział)	pt-224	pt-448	pt-896
Napisy
Napisy dotyczące CoCO (pociąg i edukacja)	CIDEr (wartość)	141,92	144,60
NoCaps (ocena przenoszenia napisów dla właściciela treści)	CIDEr (wartość)	121,72	123,58
COCO-35L (pociąg)	Programowanie CIDEr (en/avg-34/avg)	139,2 115,8 116,4	141,2 118,0 118,6
XM3600 (ocena przesyłania COCO-35L)	Programowanie CIDEr (en/avg-34/avg)	78,1 41,3 42,4	80,0 41,9 42,9
TextCaps (pociąg)	CIDEr (wartość)	127,48	153,94
SciCap (pierwsze zdanie, bez subfigure) (pociąg+d)	CIDEr/BLEU-4 (testowy)	162,25 0,192	181,49 0,211
Screen2words (trenowanie+rozwój)	CIDEr (testowy)	117,57	119,59
Dodawanie napisów do widżetów (pociąg + programowanie)	CIDEr (testowy)	136,07	148,36
Odpowiadanie na pytania
VQAv2 (trenowanie+weryfikacja)	Dokładność (serwer testowy – standardowy)	83,19	85,64
MMVP (ocena przenoszenia VQAv2)	Dokładność sparowania	47,33	45,33
POPE (ocena przenoszenia VQAv2)	Dokładność (losowa/popularna/kontrowersyjna)	87,80 85,87 84,27	88,23 86,77 85,90
OKVQA (pociąg)	Dokładność (wartość)	63,54	63,15
A-OKVQA (MC) (pociąg+d)	Dokładność (serwer testowy)	76,37	76,90
A-OKVQA (DA) (pociąg+d)	Dokładność (serwer testowy)	61,85	63,22
GQA (zbilansowany_trenaż+wartość_zbalansowana)	Dokładność (zrównoważone funkcje testowe)	65,61	67,03
xGQA (ocena przenoszenia GQA)	Średnia dokładność (bn, de, en, id, ko, pt, ru, zh)	58,37	59,07
NLVR2 (pociąg + deweloper)	Dokładność (test)	90,02	88,93
MaRVL (ocena przesyłania NLVR2)	Średnia dokładność (test) (id, sw, ta, tr, zh)	80,57	76,78
AI2D (pociąg)	Dokładność (test)	72,12	73,28
ScienceQA (podzbiór obrazu, bez CoT) (pociąg+d)	Dokładność (test)	95,39	95,93
RSVQA-LR (nienumeryczny) (pociąg + wartość)	Średnia dokładność (test)	92,65	93,11
RSVQA-HR (nienumeryczne) (pociąg+d)	Średnia dokładność (test/test2)	92,61 90,58	92,79 90,54
ChartQA (człowiek+sie)x(pociąg+d)	Średnia dokładność (test_human, test_aug)	57,08	71,36
VizWiz VQA (pociąg + dojazd)	Dokładność (serwer testowy – standardowy)	73,7	75,52
TallyQA (pociąg)	Dokładność (test_simple/złożony_test)	81,72 69,56	84,86 72,27
OCR-VQA (trening + wartość)	Dokładność (test)	72,32	74,61	74,93
TextVQA (pociąg + wartość)	Dokładność (serwer testowy – standardowy)	55,47	73,15	76,48
DocVQA (tren+al)	ANLS (serwer testowy)	43,74	78,02	84,77
Infografika VQA (pociąg + wartość)	ANLS (serwer testowy)	28,46	40,47	47,75
SceneText VQA (pociąg + wskazówka)	ANLS (serwer testowy)	63,29	81,82	84,40
Podział na segmenty
RefCOCO (połączone wartości refcoco, refcoco+ i refcog z wyłączeniem obrazów wartości względnych i testowych)	MIoU (weryfikacja) refcoco/refcoco+/refcog	73,40 68,32 67,65	75,57 69,76 70,17	76,94 72,18 72,22
Zadania wideo (napisy/kontrola jakości)
MSR-VTT (napisy)	CIDEr (testowy)	70,54
MSR-VTT (QA)	Dokładność (test)	50,09
ActivityNet (Napisy)	CIDEr (testowy)	34,62
ActivityNet (QA)	Dokładność (test)	50,78
VATEX (napisy)	CIDEr (testowy)	79,73
MSVD (QA)	Dokładność (test)	60,22

Modelowanie różnych modeli (dostrajanie różnych zadań związanych z przenoszeniem)

Test porównawczy	Wskaźnik (podział)	mix-224	mix-448
MMVP	Dokładność sparowania	46,00	45,33
POPE	Dokładność (losowa/popularna/kontrowersyjna)	88,00 86,63 85,67	89,37 88,40 87,47

Test porównawczy

Wskaźnik (podział)

mix-224

mix-448

MMVP

Dokładność sparowania

46,00

45,33

POPE

Dokładność (losowa/popularna/kontrowersyjna)

88,00

86,63

85,67

89,37

88,40

87,47

Etyka i bezpieczeństwo

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:

Ocena manualna promptów dotyczących bezpieczeństwa dzieci, treści szkoda reprezentatywna. Zobacz model Gemma bardziej szczegółowe informacje o podejściu do oceny, ale o podpisach i obrazach wizualnych odpowiedzi na pytania.
Analiza porównawcza konwersji obrazu na tekst: test porównawczy z odpowiednimi środowiskami akademickimi takie jak zbiór danych FairFace (Karkkainen i in., 2021).

Wyniki oceny

Wyniki ocen etycznych i bezpieczeństwa są w obrębie organizacji akceptowalne progi dotyczące spotkań wewnętrznych dla kategorii takich jak bezpieczeństwo dzieci, bezpieczeństwo treści czy reprezentacja krzywdy.
Oprócz rzetelnych ocen wewnętrznych korzystamy również z interfejsu Perspective API. (próg 0, 8) do pomiaru toksyczności, wulgaryzmów i innych potencjalnych problemy z wygenerowanymi napisami do obrazów pochodzących z FairFace. w gromadzeniu danych. Raportujemy maksymalne wartości i medianę zaobserwowanych w podgrupach. ze względu na poszczególne cechy płci, przynależności etnicznej i wieku.

Dane	Postrzegana płeć		przynależność etniczna,		Grupa wiekowa
	Maksimum	Mediana	Maksimum	Mediana	Maksimum	Mediana
Toksyczne	0,04%	0,03%	0,08%	0,00%	0,09%	0,00%
Atak z użyciem tożsamości	0,00%	0,00%	0,00%	0,00%	0,00%	0,00%
Znieważenie	0,06%	0,04%	0,09%	0,07%	0,16%	0,00%
Zagrożenie	0,06%	0,05%	0,14%	0,05%	0,17%	0,00%
Wulgaryzmy	0,00%	0,00%	0,00%	0,00%	0,00%	0,00%

Wykorzystanie i ograniczenia

Przeznaczenie

Modele Open Vision Language (VLM) mają szeroki zakres zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.

Dostosuj konkretne zadanie dotyczące rozpoznawania mowy:

Wstępnie wytrenowane modele można dostrajać w wielu różnych językach zadania takie jak: tworzenie podpisów do obrazów, napisy do filmów, pytania wizualne przez odczytywanie tekstu, wykrywanie obiektów oraz segmentację obiektów.
Wytrenowane modele można dostrajać pod kątem konkretnych domen, takich jak wykrywanie odpowiedzi na pytania, pytania wizualne od osób niewidomych, odpowiedzi na pytania naukowe, opisywać funkcje elementów interfejsu.
Wstępnie wytrenowane modele można dostroić pod kątem zadań z danymi wyjściowymi nietekstowymi takich jak ramki ograniczające czy maski segmentacji.

Nauka rozpoznawania języka:

Wytrenowane i dostrojone modele mogą służyć za podstawę badacze będą mogli eksperymentować z technikami VLM, opracowywać algorytmy przyczyniają się do rozwoju tej dziedziny.

Kwestie etyczne i zagrożenia

Opracowanie modeli wizji i języków (VLM) wiąże się z pewnymi potencjalnych problemów. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

Uprzedzenia i obiektywność
- Modele VLM wytrenowane na dużych, rzeczywistych danych tekstowych obrazu mogą odzwierciedlać uprzedzeń socjokulturowych uwzględnionych w materiałach szkoleniowych. Te modele została dokładnie przyjęta. Wstępne przetwarzanie danych wejściowych zostało opisane oceny późniejsze uwzględnione na tej karcie.
Nieprawdziwe informacje i niewłaściwe używanie
- VLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwe.
- Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjnych rozwiązań, udostępniając technologię VLM programistom badaczy w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania. (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące treści. bezpieczeństwo jest bardzo ważne. Zachęcamy deweloperów do zachowania ostrożności wdrożyć odpowiednie środki ochrony treści na podstawie zasadami dotyczącymi usług i przypadkami użycia aplikacji.
Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są udostępnione: zapoznaj się z zestawem narzędzi odpowiedzialnej generatywnej AI. Zabronione zastosowania Gemma są opisane w Zasadach dotyczących niedozwolonych zastosowań Gemma.
Naruszenia prywatności: modele zostały wytrenowane na podstawie danych odfiltrowanych w celu usunięcia pewnych danych osobowych i informacji poufnych. Zachęcamy deweloperów aby zachować zgodność z przepisami dotyczącymi prywatności dzięki zastosowaniu technik chroniących prywatność.

Ograniczenia

Większość ograniczeń odziedziczonych z podstawowego modelu Gemma nadal obowiązuje:
- Jednostki VLM lepiej radzą sobie z zadaniami, które mogą zawierać zrozumiałe prompty za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Język naturalny jest z natury złożony. VLM mogą mieć problemy ze zrozumieniem subtelne niuanse, sarkazm czy sformułowania.
- Modele VLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
- Modele VLM opierają się na wzorcach statystycznych dotyczących języka i obrazu. Może nie potrafią kierować się zdrowym rozsądkiem w określonych sytuacjach.
PaliGemma została stworzona przede wszystkim z myślą w celu dostosowania modelu do specjalistycznych zadań. Dlatego prosto z pudełka lub "zero-shot" wydajność urządzenia może być opóźniona w stosunku do modeli zaprojektowanych specjalnie że.
PaliGemma nie jest wieloetapowym czatbotem. Jest przeznaczona na jedną rundę wprowadzania obrazów i tekstu.