Strona modelu: PaliGemma
Zasoby i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie modelu
Opis
PaliGemma to uniwersalny i lekki model rozpoznawania mowy (VLM) inspirowany PaLI-3 i oparte na otwartych komponentach, takich jak model wizyjny SigLIP oraz Gemma Zawiera zarówno obraz, jak i tekst jako dane wejściowe i generuje tekst jako dane wyjściowe, obsługując wiele języków. Jest zaprojektowany z myślą o najlepszym w swojej klasie dostosowywaniu wydajności w szerokim zakresie zadania związane z rozpoznawaniem i językiem, takie jak obrazy, napisy do filmów i pytania wizualne przez odczytywanie tekstu, wykrywanie obiektów oraz segmentację obiektów.
Architektura modelu
PaliGemma to kompozycja Transformatora z dekodera i obrazu Vision Transformer oraz 3 miliardy parametrów. Dekoder tekstu został zainicjowany z Gemma-2B. Koder obrazu to zainicjowano z SigLIP-So400m/14. PaliGemma jest trenowany zgodnie z przepisami Pali-3.
Dane wejściowe i wyjściowe
- Dane wejściowe: obraz i ciąg tekstowy, np. prompt z podpisem do obrazu, zadaj pytanie.
- Dane wyjściowe: tekst wygenerowany w odpowiedzi na dane wejściowe, np. podpis obraz, odpowiedź na pytanie, lista ramki ograniczającej obiekt czy słowa kodowe związane z segmentacją.
Dane modelu
Zbiory danych do trenowania wstępnego
PaliGemma jest wstępnie trenowany na tej kombinacji zbiorów danych:
- WebLI: WebLI (Web Language Image) czyli dostępny na dużą skalę w internecie zbiór danych z obrazami i tekstami w różnych językach stworzonych na podstawie publicznej sieci. O obejmuje szeroki zakres podziałów WebLI do uzyskania wszechstronnych możliwości modelu, takie jak wizualne rozumienie semantyczne, lokalizacja obiektów, rozumienie tekstu w sensie wizualnym, wielojęzyczności itd.
- CC3M-35L: wybrane pary obrazu i tekstu w języku angielskim ze stron internetowych (Sharma et inne 2018). Skorzystaliśmy z technologii Google Cloud Translation API do translacji na 34 dodatkowych języków.
- VQ²A-CC3M-35L/VQG-CC3M-35L: podzbiór VQ2A-CC3M (Changpinyo i in., 2022a), przetłumaczone na język dodatkowe 34 języki co w przypadku CC3M-35L, w przypadku Google Cloud Translation API.
- OpenImages: wykrywanie i rozpoznawanie obiektów oraz odpowiedzi na pytania i odpowiedzi (Piergiovanni i in. 2022) wygenerowany przez ręcznie utworzone reguły w zbiorze danych OpenImages.
- WIT: obrazy i teksty zebrane z Wikipedii (Srinivasan i in., 2021).
Filtrowanie odpowiedzialności za dane
Poniższe filtry są stosowane do WebLI w celu trenowania PaliGemma na czyste dane:
- Filtrowanie obrazów pornograficznych: ten filtr usuwa obrazy uznane za zawierające o charakterze pornograficznym.
- Filtrowanie z uwzględnieniem bezpieczeństwa tekstu: identyfikuje i odfiltrowujemy obrazy, które zostały sparowane. z niebezpiecznym tekstem. Niebezpieczny tekst to dowolny tekst, który zawiera lub dotyczy treści materiały wizualne przedstawiające wykorzystywanie seksualne dzieci, pornografię, wulgaryzmy lub inne obraźliwe treści.
- Filtrowanie toksyczności tekstu: dalej używamy Perspektywy API do rozpoznawania i odfiltrowywania obrazów, które połączone z tekstem uznawanym za obraźliwy, obsceniczny, szerzący nienawiść lub w inny sposób toksyczny;
- Filtrowanie tekstowych danych osobowych: odfiltrowaliśmy niektóre dane osobowe, informacji i innych danych wrażliwych za pomocą usługi Cloud Data Loss Prevention (DLP) do ochrony do prywatności jednostek. Identyfikatory, takie jak numer PESEL, inne typy informacji poufnych zostały usunięte.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści w z naszymi zasadami i metodami.
Informacje o wdrażaniu
Sprzęt
Serwis PaliGemma został wytrenowany z wykorzystaniem najnowszej generacji procesora Tensor Sprzęt (TPU) (TPUv5e).
Oprogramowanie
Trenowanie odbywało się w języku JAX.
Flax,
TFDS oraz
big_vision
.
JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.
TFDS służy do uzyskiwania dostępu do zbiorów danych, a format Flax jest używany do architektury modelu.
Kody do dostrajania i wnioskowania w PaliGemma są udostępniane w big_vision
repozytorium GitHub.
Informacje o ocenie
Wyniki testów porównawczych
W celu weryfikacji możliwości przenoszenia witryny PaliGemma na wiele różnych zadań akademickich, dostosowujemy wstępnie wytrenowane modele do każdego zadania. Dodatkowo wytrenować model mieszania, korzystając z kombinacji zadań związanych z przenoszeniem. Wyniki podajemy w raporcie różne rozdzielczości, aby pokazać, które zadania przynoszą korzyści. zwiększona rozdzielczość. Co ważne, żadne z tych zadań ani zbiorów danych nie jest częścią mieszaniny danych wstępnego trenowania, a ich obrazy są jawnie usuwane z w skali internetowej.
Pojedyncze zadanie (dostrojenie do pojedynczego zadania)
Test porównawczy (podział pociągu) | Wskaźnik (podział) | pt-224 | pt-448 | pt-896 |
---|---|---|---|---|
Napisy | ||||
Napisy dotyczące CoCO (pociąg i edukacja) | CIDEr (wartość) | 141,92 | 144,60 | |
NoCaps (ocena przenoszenia napisów dla właściciela treści) | CIDEr (wartość) | 121,72 | 123,58 | |
COCO-35L (pociąg) | Programowanie CIDEr (en/avg-34/avg) |
|
|
|
XM3600 (ocena przesyłania COCO-35L) | Programowanie CIDEr (en/avg-34/avg) |
|
|
|
TextCaps (pociąg) | CIDEr (wartość) | 127,48 | 153,94 | |
SciCap (pierwsze zdanie, bez subfigure) (pociąg+d) | CIDEr/BLEU-4 (testowy) |
|
|
|
Screen2words (trenowanie+rozwój) | CIDEr (testowy) | 117,57 | 119,59 | |
Dodawanie napisów do widżetów (pociąg + programowanie) | CIDEr (testowy) | 136,07 | 148,36 | |
Odpowiadanie na pytania | ||||
VQAv2 (trenowanie+weryfikacja) | Dokładność (serwer testowy – standardowy) | 83,19 | 85,64 | |
MMVP (ocena przenoszenia VQAv2) | Dokładność sparowania | 47,33 | 45,33 | |
POPE (ocena przenoszenia VQAv2) | Dokładność (losowa/popularna/kontrowersyjna) |
|
|
|
OKVQA (pociąg) | Dokładność (wartość) | 63,54 | 63,15 | |
A-OKVQA (MC) (pociąg+d) | Dokładność (serwer testowy) | 76,37 | 76,90 | |
A-OKVQA (DA) (pociąg+d) | Dokładność (serwer testowy) | 61,85 | 63,22 | |
GQA (zbilansowany_trenaż+wartość_zbalansowana) | Dokładność (zrównoważone funkcje testowe) | 65,61 | 67,03 | |
xGQA (ocena przenoszenia GQA) | Średnia dokładność (bn, de, en, id, ko, pt, ru, zh) | 58,37 | 59,07 | |
NLVR2 (pociąg + deweloper) | Dokładność (test) | 90,02 | 88,93 | |
MaRVL (ocena przesyłania NLVR2) | Średnia dokładność (test) (id, sw, ta, tr, zh) | 80,57 | 76,78 | |
AI2D (pociąg) | Dokładność (test) | 72,12 | 73,28 | |
ScienceQA (podzbiór obrazu, bez CoT) (pociąg+d) | Dokładność (test) | 95,39 | 95,93 | |
RSVQA-LR (nienumeryczny) (pociąg + wartość) | Średnia dokładność (test) | 92,65 | 93,11 | |
RSVQA-HR (nienumeryczne) (pociąg+d) | Średnia dokładność (test/test2) |
|
|
|
ChartQA (człowiek+sie)x(pociąg+d) | Średnia dokładność (test_human, test_aug) | 57,08 | 71,36 | |
VizWiz VQA (pociąg + dojazd) | Dokładność (serwer testowy – standardowy) | 73,7 | 75,52 | |
TallyQA (pociąg) | Dokładność (test_simple/złożony_test) |
|
|
|
OCR-VQA (trening + wartość) | Dokładność (test) | 72,32 | 74,61 | 74,93 |
TextVQA (pociąg + wartość) | Dokładność (serwer testowy – standardowy) | 55,47 | 73,15 | 76,48 |
DocVQA (tren+al) | ANLS (serwer testowy) | 43,74 | 78,02 | 84,77 |
Infografika VQA (pociąg + wartość) | ANLS (serwer testowy) | 28,46 | 40,47 | 47,75 |
SceneText VQA (pociąg + wskazówka) | ANLS (serwer testowy) | 63,29 | 81,82 | 84,40 |
Podział na segmenty | ||||
RefCOCO (połączone wartości refcoco, refcoco+ i refcog z wyłączeniem obrazów wartości względnych i testowych) | MIoU (weryfikacja) refcoco/refcoco+/refcog |
|
|
|
Zadania wideo (napisy/kontrola jakości) | ||||
MSR-VTT (napisy) | CIDEr (testowy) | 70,54 | ||
MSR-VTT (QA) | Dokładność (test) | 50,09 | ||
ActivityNet (Napisy) | CIDEr (testowy) | 34,62 | ||
ActivityNet (QA) | Dokładność (test) | 50,78 | ||
VATEX (napisy) | CIDEr (testowy) | 79,73 | ||
MSVD (QA) | Dokładność (test) | 60,22 |
Modelowanie różnych modeli (dostrajanie różnych zadań związanych z przenoszeniem)
Test porównawczy | Wskaźnik (podział) | mix-224 | mix-448 |
---|---|---|---|
MMVP | Dokładność sparowania | 46,00 | 45,33 |
POPE | Dokładność (losowa/popularna/kontrowersyjna) |
|
|
Etyka i bezpieczeństwo
Metoda oceny
Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:
- Ocena manualna promptów dotyczących bezpieczeństwa dzieci, treści szkoda reprezentatywna. Zobacz model Gemma bardziej szczegółowe informacje o podejściu do oceny, ale o podpisach i obrazach wizualnych odpowiedzi na pytania.
- Analiza porównawcza konwersji obrazu na tekst: test porównawczy z odpowiednimi środowiskami akademickimi takie jak zbiór danych FairFace (Karkkainen i in., 2021).
Wyniki oceny
- Wyniki ocen etycznych i bezpieczeństwa są w obrębie organizacji akceptowalne progi dotyczące spotkań wewnętrznych dla kategorii takich jak bezpieczeństwo dzieci, bezpieczeństwo treści czy reprezentacja krzywdy.
- Oprócz rzetelnych ocen wewnętrznych korzystamy również z interfejsu Perspective API. (próg 0, 8) do pomiaru toksyczności, wulgaryzmów i innych potencjalnych problemy z wygenerowanymi napisami do obrazów pochodzących z FairFace. w gromadzeniu danych. Raportujemy maksymalne wartości i medianę zaobserwowanych w podgrupach. ze względu na poszczególne cechy płci, przynależności etnicznej i wieku.
Dane | Postrzegana płeć | przynależność etniczna, | Grupa wiekowa | |||
---|---|---|---|---|---|---|
Maksimum | Mediana | Maksimum | Mediana | Maksimum | Mediana | |
Toksyczne | 0,04% | 0,03% | 0,08% | 0,00% | 0,09% | 0,00% |
Atak z użyciem tożsamości | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Znieważenie | 0,06% | 0,04% | 0,09% | 0,07% | 0,16% | 0,00% |
Zagrożenie | 0,06% | 0,05% | 0,14% | 0,05% | 0,17% | 0,00% |
Wulgaryzmy | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% | 0,00% |
Wykorzystanie i ograniczenia
Przeznaczenie
Modele Open Vision Language (VLM) mają szeroki zakres zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.
Dostosuj konkretne zadanie dotyczące rozpoznawania mowy:
- Wstępnie wytrenowane modele można dostrajać w wielu różnych językach zadania takie jak: tworzenie podpisów do obrazów, napisy do filmów, pytania wizualne przez odczytywanie tekstu, wykrywanie obiektów oraz segmentację obiektów.
- Wytrenowane modele można dostrajać pod kątem konkretnych domen, takich jak wykrywanie odpowiedzi na pytania, pytania wizualne od osób niewidomych, odpowiedzi na pytania naukowe, opisywać funkcje elementów interfejsu.
- Wstępnie wytrenowane modele można dostroić pod kątem zadań z danymi wyjściowymi nietekstowymi takich jak ramki ograniczające czy maski segmentacji.
Nauka rozpoznawania języka:
- Wytrenowane i dostrojone modele mogą służyć za podstawę badacze będą mogli eksperymentować z technikami VLM, opracowywać algorytmy przyczyniają się do rozwoju tej dziedziny.
Kwestie etyczne i zagrożenia
Opracowanie modeli wizji i języków (VLM) wiąże się z pewnymi potencjalnych problemów. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- Modele VLM wytrenowane na dużych, rzeczywistych danych tekstowych obrazu mogą odzwierciedlać uprzedzeń socjokulturowych uwzględnionych w materiałach szkoleniowych. Te modele została dokładnie przyjęta. Wstępne przetwarzanie danych wejściowych zostało opisane oceny późniejsze uwzględnione na tej karcie.
- Nieprawdziwe informacje i niewłaściwe używanie
- VLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwe.
- Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
- Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjnych rozwiązań, udostępniając technologię VLM programistom badaczy w całym ekosystemie AI.
Zidentyfikowane zagrożenia i środki zaradcze:
- Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania. (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące treści. bezpieczeństwo jest bardzo ważne. Zachęcamy deweloperów do zachowania ostrożności wdrożyć odpowiednie środki ochrony treści na podstawie zasadami dotyczącymi usług i przypadkami użycia aplikacji.
- Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są udostępnione: zapoznaj się z zestawem narzędzi odpowiedzialnej generatywnej AI. Zabronione zastosowania Gemma są opisane w Zasadach dotyczących niedozwolonych zastosowań Gemma.
- Naruszenia prywatności: modele zostały wytrenowane na podstawie danych odfiltrowanych w celu usunięcia pewnych danych osobowych i informacji poufnych. Zachęcamy deweloperów aby zachować zgodność z przepisami dotyczącymi prywatności dzięki zastosowaniu technik chroniących prywatność.
Ograniczenia
- Większość ograniczeń odziedziczonych z podstawowego modelu Gemma nadal obowiązuje:
- Jednostki VLM lepiej radzą sobie z zadaniami, które mogą zawierać zrozumiałe prompty za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Język naturalny jest z natury złożony. VLM mogą mieć problemy ze zrozumieniem subtelne niuanse, sarkazm czy sformułowania.
- Modele VLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
- Modele VLM opierają się na wzorcach statystycznych dotyczących języka i obrazu. Może nie potrafią kierować się zdrowym rozsądkiem w określonych sytuacjach.
- PaliGemma została stworzona przede wszystkim z myślą w celu dostosowania modelu do specjalistycznych zadań. Dlatego prosto z pudełka lub "zero-shot" wydajność urządzenia może być opóźniona w stosunku do modeli zaprojektowanych specjalnie że.
- PaliGemma nie jest wieloetapowym czatbotem. Jest przeznaczona na jedną rundę wprowadzania obrazów i tekstu.