Karta modelu Gemma

Strona modelu: Gemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Ogólny opis i krótkie definicje danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych otwartych modeli Google, która powstała na podstawie tych samych badań i technologii, co modele Gemini. To duże modele językowe typu tekst-tekst, które zawierają tylko dekoder i są dostępne w języku angielskim. Mają otwarte wagi, warianty wstępnego trenowania i warianty dostrojone pod kątem instrukcji. Modele Gemma dobrze nadają się do różnych zadań związanych z generowaniem tekstu, takich jak odpowiadanie na pytania, streszczanie i wyciąganie wniosków. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptop, komputer stacjonarny czy własna infrastruktura chmurowa. Dzięki temu każdy może korzystać z najnowocześniejszych modeli AI i wspierać innowacje.

Wejścia i wyjścia

  • Wejście: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowany.
  • Wyjście: wygenerowany tekst w języku angielskim jako odpowiedź na dane wejściowe, np. odpowiedź na pytanie lub podsumowanie dokumentu.

Cytat

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dane modelu

dane użyte do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych pochodzących z różnych źródeł, który zawiera łącznie 6 bilionów tokenów. Oto najważniejsze elementy:

  • Dokumenty internetowe: zróżnicowana kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiego zakresu stylów językowych, tematów i słownictwa. treści w głównym stopniu w języku angielskim.
  • Kod: model ma dostęp do kodu, co pomaga mu uczyć się składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu lub rozumienia pytań związanych z kodem.
  • Matematyka: trenowanie na podstawie tekstu matematycznego pomaga modelowi w nauce rozumowania logicznego, reprezentacji symbolicznej i rozwiązywaniu zapytań matematycznych.

Połączenie tych różnych źródeł danych jest kluczowe dla trenowania wydajnego modelu językowego, który może obsługiwać wiele różnych zadań i formatów tekstowych.

Przetwarzanie wstępne danych

Oto główne metody czyszczenia i filtrowania danych zastosowane do danych treningowych:

  • Filtrowanie treści CSAM: rygorystyczne filtrowanie treści CSAM (materiałów związanych z wykorzystywaniem seksualnym dzieci) zostało zastosowane na wielu etapach procesu przygotowywania danych, aby wykluczyć szkodliwe i nielegalne treści.
  • Filtrowanie danych wrażliwych: aby wytrenowane wstępnie modele Gemma były bezpieczne i niezawodne, zastosowaliśmy automatyczne techniki do odfiltrowywania z zbiorów treningowych pewnych informacji osobistych i innych danych wrażliwych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Informacje o wdrożeniu

Szczegóły dotyczące wewnętrznych elementów modelu.

Sprzęt

Gemma została wyszkolona przy użyciu najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e).

Trenowanie dużych modeli językowych wymaga znacznej mocy obliczeniowej. Jednostki TPU, zaprojektowane specjalnie do operacji na macierzach, które są powszechne w systemach uczących się, oferują w tym zakresie kilka zalet:

  • Wydajność: procesory TPU zostały zaprojektowane specjalnie do obsługi ogromnych obliczeń, które są niezbędne do trenowania dużych modeli językowych. Mogą one znacznie przyspieszyć trenowanie w porównaniu z procesorami.
  • Pamięć: TPU często mają dużo pamięci o dużej przepustowości, co umożliwia obsługę dużych modeli i wielkich rozmiarów wsadów podczas trenowania. Może to poprawić jakość modelu.
  • Skalowalność: moduły TPU (duże klastry TPU) stanowią skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozłożyć proces uczenia na wiele urządzeń TPU, aby przyspieszyć i zoptymalizować przetwarzanie.
  • Koszt: w wielu przypadkach TPU mogą stanowić bardziej ekonomiczne rozwiązanie do trenowania dużych modeli niż infrastruktura oparta na procesorach CPU, zwłaszcza jeśli weźmiemy pod uwagę czas i zasoby zaoszczędzone dzięki szybszemu trenowaniu.
  • Te korzyści są zgodne z zobowiązaniami Google dotyczącymi zrównoważonego rozwoju.

Oprogramowanie

Trenowanie zostało wykonane za pomocą JAX i ścieżek ML.

JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i skuteczniej trenować duże modele.

ML Pathways to najnowsze osiągnięcie Google w dziedzinie tworzenia systemów sztucznej inteligencji, które potrafią uogólniać działania na potrzeby wielu zadań. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.

JAX i ML Pathways są używane razem zgodnie z opisem w artykule na temat rodziny modeli Gemini: „model programowania z jednym kontrolerem” w JAX i Pathways pozwala jednemu procesowi Pythona sterować całym procesem trenowania, co znacznie upraszcza proces programowania.

Ocena

Wyniki i wskaźniki oceny modelu.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i danych pomiarowych, aby objąć różne aspekty generowania tekstu:

Test porównawczy Dane Gemma PT 2B Gemma PT 7B
MMLU 5-shot, top-1 42,3 64,3
HellaSwag 0-shot 71,4 81,2
PIQA 0-shot 77,3 81,2
SocialIQA 0-shot 49,7 51,8
BoolQ 0-shot 69,4 83,2
WinoGrande wynik częściowy 65,4 72,3
CommonsenseQA 7-shot 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42.1 53,2
TriviaQA 5-shot 53,2 63,4
Pytania naturalne 5-shot 12,5 23,0
HumanEval pass@1 22,0 32,3
MBPP 3-shot 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4-shot 11,8 24,3
AGIEval 24.2 41,7
BIG-Bench 35,2 55.1
Średnia 44,9 56,4

Etyka i bezpieczeństwo

podejście i wyniki oceny etyki i bezpieczeństwa;

Metoda oceny

Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:

  • Bezpieczeństwo treści tekstowych: ocena ludzka na podstawie promptów obejmujących zasady bezpieczeństwa dotyczące m.in. wykorzystywania seksualnego i wykorzystywania dzieci, nękania, przemocy i okrucieństwa oraz wypowiedzi szerzących nienawiść.
  • Szkodliwe skutki konwersji tekstu na tekst: porównanie z odpowiednimi zbiorami danych akademickich, takimi jak WinoBiaszbiór danych BBQ.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyka ujawnienia informacji umożliwiających identyfikację.
  • Wyrządzanie szkód na dużą skalę: testowanie „potencjału do wyrządzania szkód”, takiego jak zagrożenia chemiczne, biologiczne, radiologiczne i jądrowe (CBRN).

Wyniki oceny

Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych granicach, aby spełniać zasady wewnętrzne w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody wynikające z reprezentowania, zapamiętywanie oraz szkody na dużą skalę. Oprócz rzetelnych wewnętrznych ocen uwzględniamy tu wyniki znanych testów bezpieczeństwa, takich jak BBQ, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA.

Gemma 1.0

Test porównawczy Dane Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity średnia 6,86 7,90
POGRUBIANIE 45,57 49,08
CrowS-Pairs top-1 45,82 51,33
BBQ Ambig 1-shot, top-1 62,58 92,54
BBQ Disambig top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29,77 39,59

Gemma 1.1

Test porównawczy Dane Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity średnia 7,03 8,04
POGRUBIANIE 47,76
CrowS-Pairs top-1 45,89 49,67
BBQ Ambig 1-shot, top-1 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Zastosowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele można stosować do generowania formatów tekstowych kreacji, takich jak wiersze, skrypty, kod, teksty marketingowe i wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: tworzenie interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
    • Podsumowanie tekstu: generowanie zwięzłych podsumowań korpusów tekstowych, artykułów naukowych i raportów.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako podstawa do eksperymentowania z technikami NLP, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.
    • Narzędzia do nauki języka: umożliwiają interaktywne naukę języka, pomagają w poprawianiu błędów gramatycznych i umożliwiają ćwiczenie pisania.
    • Eksploracja wiedzy: pomaga badaczom w przeglądaniu dużych zbiorów tekstu poprzez generowanie podsumowań lub udzielanie odpowiedzi na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych używanych do trenowania ma duży wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą ograniczać możliwości odpowiedzi modelu.
    • Zakres zbioru danych do trenowania określa obszary tematyczne, które model może skutecznie obsługiwać.
  • Kontekst i złożoność zadania
    • Modele LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
    • Na skuteczność modelu może mieć wpływ ilość podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, do pewnego momentu).
  • Niejednoznaczność językowa i niuanse
    • Język naturalny jest z natury złożony. Sieci LSTM mogą mieć problemy z uchwyceniem subtelności, sarkazmu lub języka obrazowego.
  • Dokładność informacji
    • Duże modele językowe generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są one bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
  • Common Sense
    • Duże modele językowe polegają na wzorach statystycznych w języku. W pewnych sytuacjach mogą nie być w stanie kierować się zdrowym rozsądkiem.

Uwagi i zagrożenia etyczne

Rozwój dużych modeli językowych (LLM) budzi pewne wątpliwości etyczne. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • Modele LLM trenowane na dużych zbiorach danych tekstowych pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia kulturowe i społeczne zawarte w materiałach treningowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano w tej karcie.
  • Nieprawdziwe informacje i nieprawidłowe użycie
    • Modele LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modela. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
    • Otwarty model opracowany w sposób odpowiedzialny daje możliwość dzielenia się innowacjami, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczania:

  • Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i sprawdzania przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i innych zastosowań.
  • generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących ich produktów i przypadków użycia aplikacji.
  • Niewłaściwe użycie do celów szkodliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu szkodliwego użycia LLM. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie niewłaściwego użycia. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych pod kątem usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.

Zalety

W momencie wydania ta rodzina modeli zapewnia wydajne, otwarte implementacje dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach.

Na podstawie danych porównawczych opisanych w tym dokumencie okazało się, że te modele zapewniają lepszą skuteczność niż inne alternatywne otwarte modele o porównywalnej wielkości.