Karta modelu Gemma

Strona modelu: Gemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie oraz krótka definicja danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych modeli otwartych od Google, oparte na tych samych badaniach i technologii, których użyto do stworzenia modeli Gemini. To duże modele językowe (tekst na tekst) z samą dekoderem i dostępne w języku angielskim. z otwartymi wagami, wytrenowanymi wariantami i wariantami dostosowanymi do instrukcji. Gemma dobrze nadają się do różnych zadań związanych z generowaniem tekstu, w tym udzielania odpowiedzi na pytania, streszczania i rozumowania. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptopa, komputera stacjonarnego lub infrastruktury w chmurze, co pozwala na demokratyzację dostępu z najnowocześniejszymi modelami AI i pomagającymi we wprowadzaniu innowacji z korzyścią dla wszystkich.

Dane wejściowe i wyjściowe

  • Dane wejściowe: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowując.
  • Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe, np. jako odpowiedź na pytanie lub podsumowanie dokumentu.

Cytowanie

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dane modelu

Dane używane do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych, który obejmuje wiele różnych wszystkich źródeł, co daje łącznie 6 bilionów tokenów. Oto jej najważniejsze elementy:

  • Dokumenty internetowe: różnorodny zbiór tekstu z sieci zapewnia, że model jest widoczny po różne style, tematy i słownictwo. Głównie Treści w języku angielskim.
  • Kod: udostępnienie modelu kodowi pomaga mu poznać składnię i wzorce języków programowania, które poprawiają ich zdolność do generowania kodu zrozumieć kwestie związane z kodem.
  • Matematyka: trenowanie tekstu matematycznego pomaga modelowi nauczyć się podstaw logicznych rozumowania, przedstawiania symboli i zapytań matematycznych.

Połączenie różnych źródeł danych ma kluczowe znaczenie dla wytrenowania potężnego model językowy, który może obsługiwać szeroką gamę różnych zadań i tekstów formatów reklam.

Wstępne przetwarzanie danych

Oto najważniejsze metody oczyszczania i filtrowania danych stosowane do trenowania dane:

  • Filtrowanie CSAM: rygorystyczne filtrowanie CSAM (materiały związane z wykorzystywaniem seksualnym dzieci) jest stosowane na wielu etapach procesu przygotowania danych, aby zapewnić do wykluczenia szkodliwych i nielegalnych treści.
  • Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa wytrenowanym przez Gemma modeli stosowano zautomatyzowane techniki, aby odfiltrować oraz innych danych wrażliwych ze zbiorów treningowych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści oraz naszymi zasadami.

Informacje o wdrażaniu

Szczegółowe informacje o obiektach wewnętrznych modelu.

Sprzęt

Gemma została przeszkolona z wykorzystaniem najnowszej generacji Tensor Processing Unit (TPU) (TPUv5e)

Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. TPU, zaprojektowanych specjalnie z myślą o operacjach macierzy typowych dla systemów uczących się, wiele zalet tej domeny:

  • Wydajność: jednostki TPU są zaprojektowane do obsługi zaawansowanych obliczeń w trenowaniu modeli LLM. Mogą znacznie przyspieszyć trenowanie w porównaniu procesory.
  • Pamięć: jednostki TPU często mają dużą ilość pamięci o dużej przepustowości, co pozwala obsługi dużych modeli i wsadów podczas trenowania. Może to spowodować aby poprawić jakość modelu.
  • Skalowalność: pody TPU (duże klastry TPU) to skalowalne rozwiązanie która radzi sobie ze rosnącą złożonością dużych modeli podstawowych. Możesz rozprowadzać trenowanie na wielu urządzeniach TPU w celu szybszego i wydajniejszego przetwarzania.
  • Oszczędność: w wielu przypadkach jednostki TPU mogą być tańszym rozwiązaniem. do trenowania dużych modeli w porównaniu z infrastrukturą opartą na procesorach, zwłaszcza jeśli wziąć pod uwagę zaoszczędzony czas i zasoby szkolenia internetowego.
  • Te zalety są powiązane z Zobowiązanie Google do zrównoważonego działania

Oprogramowanie

Trenowanie odbyło się przy użyciu narzędzi JAX i ML Pathways.

JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.

ML Pathways to najnowsze inicjatywy Google mające na celu stworzenie sztucznie inteligentnych systemów z możliwością uogólniania w wielu zadaniach. Ta funkcja jest szczególnie odpowiednia dla modele fundacyjne, w tym duże modele językowe (np. dla nich.

Ścieżki JAX i ML są wspólnie używane zgodnie z artykuł na temat rodziny modeli Gemini; „Singiel kontroler Jax and Pathways to model programowania Jax and Pathways, który pozwala na użycie jednego języka Python. i administruje całym procesem trenowania, znacznie upraszczając w procesie programowania”.

Ocena

Wskaźniki i wyniki oceny modelu.

Wyniki analizy porównawczej

Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:

Test porównawczy Dane Gemma PT 2B Gemma PT 7B
MMLU 5 zdjęć, górne 1 42,3 64,3
HellaSwag 0 strzałów 71,4 81,2
PIQA 0 strzałów 77,3 81,2
SocialIQA 0 strzałów 49,7 51,8
BoolQ 0 strzałów 69,4 83,2
WinoGrande wynik częściowy 65,4 72,3
CommonsenseQA 7-strzałowe 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 strzałów 53,2 63,4
Pytania naturalne 5 strzałów 12,5 23,0
HumanEval karta@1 22,0 32,3
MBPP 3 uderzenia 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4-strzałowe 11,8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55,1
Średnio 44,9 56,4

Etyka i bezpieczeństwo

Podejście do oceny etyki i bezpieczeństwa oraz jej wyniki.

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:

  • Bezpieczeństwo treści na podstawie tekstu na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
  • Treści przedstawiające przemoc w formie tekstu na tekst: analiza porównawcza z odpowiednimi środowiskami akademickimi takich jak WinoBias i BBQ Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację osób.
  • Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji” takich jak chemiczne, ryzyka biologicznego, radiologicznego oraz jądrowego (CBRN).

Wyniki oceny

Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach w celu spełnienia wewnętrznych zasad dotyczących kategorii takich jak podrzędne. bezpieczeństwo, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie, szkody na dużą skalę. Oprócz solidnych ocen wewnętrznych, wyniki dobrze znanych zabezpieczeń testy porównawcze takie jak grilla, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA; są widoczne w tym miejscu.

Gemma 1.0

Test porównawczy Dane Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity średnia 6,86 7,90
BOLD 45,57 49,08
Pary-ręki top-1 45,82 51,33
Grill Ambig 1-shot, Top-1 62,58 92,54
Rozbiórka grilla top-1 54,62 71,99
Winopłeć top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29,77 39,59

Gemma 1.1

Test porównawczy Dane Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity średnia 7,03 8,04
BOLD 47,76
Pary-ręki top-1 45,89 49,67
Grill Ambig 1-shot, Top-1 58,97 86,06
Rozbiórka grilla top-1 53,90 85,08
Winopłeć top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Użytkowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele można stosować do generowania kreatywnych formatów tekstu takich jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne dla klienta takich jak wirtualni asystenci i interaktywne aplikacje.
    • Streszczanie tekstu: generowanie zwięzłych streszczeń korpusu tekstowego, wyniki badań gazety czy raporty.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako która umożliwia badaczom eksperymentowanie z technikami NLP, i przyczyniają się do rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspieraj interaktywne zajęcia językowe pomaganie w poprawianiu gramatyki lub w ćwiczeniu pisania.
    • Odkrywanie wiedzy: pomóż badaczom analizować duże ilości tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w dużym stopniu wpływają możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do: z ograniczeniami w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematów, które model może co robić skutecznie.
  • Kontekst i złożoność zadania
    • LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
    • Na wydajność modelu może mieć wpływ ilość podanego kontekstu (Dłuższy kontekst prowadzi zwykle do lepszych wyników, do pewnego momentu).
  • Niejednoznaczność języka i niuanse
    • Język naturalny jest z natury złożony. LLM mogą mieć problemy z rozumieniem subtelnych niuansów, sarkazmu czy języka opisowego.
  • Dokładność faktów
    • LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. Może nie mieć odpowiednich umiejętności, na stosowanie w określonych sytuacjach zdrowego rozsądku.

Względy etyczne i ryzyko

Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać społeczno-kulturę uprzedzeń zawartych w materiałach szkoleniowych. Te modele zostały starannie przemyślane szczegółowa analiza, opisywane wstępne przetwarzanie danych wejściowych i weryfikacja widoczne na tej karcie.
  • Nieprawdziwe informacje i niewłaściwe używanie
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
    • Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjności, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

  • Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są kluczowe. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednie środki ochrony treści na podstawie zasad dotyczących konkretnych usług i zastosowaniach aplikacji.
  • Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Zasady dotyczące niedozwolonych zastosowań Gemma.
  • Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację (Informacje umożliwiające identyfikację). Zachęcamy deweloperów z wykorzystaniem technik chroniących prywatność.

Zalety

W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;

Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.