Karta modelu Gemma 2

Strona modelu: Gemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie oraz krótka definicja danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych modeli otwartych od Google opracowanych na podstawie tych samych badań i technologii, które posłużyły do stworzenia modeli Gemini. Są to duże modele językowe z tekstem na tekst dostępne tylko w języku angielskim z otwartymi wagami zarówno dla wersji wytrenowanych, jak i dostrojonych do instrukcji. Modele Gemma świetnie nadają się do różnych zadań związanych z generowaniem tekstu, takich jak odpowiadanie na pytania, streszczenie czy rozumowanie. Ich stosunkowo nieduży rozmiar umożliwia wdrożenie ich w środowiskach o ograniczonych zasobach, takich jak laptop, komputer stacjonarny lub Twoja własna infrastruktura w chmurze, co demokratuje dostęp do najnowocześniejszych modeli AI i pomaga we wprowadzaniu innowacji.

Dane wejściowe i wyjściowe

  • Dane wejściowe: ciąg tekstowy, np. pytanie, prompt lub dokument do podsumowania.
  • Wyniki:generowany w języku angielskim tekst wygenerowany w odpowiedzi na dane wejściowe, np. odpowiedź na pytanie lub podsumowanie dokumentu.

Cytowanie

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dane modelu

Dane używane do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych, który obejmuje wiele różnych źródeł. Model 27 mld został wytrenowany z użyciem 13 bilionów tokenów. Model 9 mld został wytrenowany z wykorzystaniem 8 bilionów tokenów. Oto jej najważniejsze elementy:

  • Dokumenty internetowe: różnorodny zbiór tekstu z internetu umożliwia prezentowanie modelu szerokiej gamy stylów lingwistycznych, tematów i słownictwa. Głównie treści w języku angielskim.
  • Kod: pokazanie modelu na potrzeby kodu pomaga mu poznać składnię i wzorce języków programowania, co zwiększa zdolność generowania kodu lub rozumienia pytań związanych z kodem.
  • Matematyka: trenowanie tekstu matematycznego pomaga modelowi poznać rozumowanie logiczne, reprezentację symboliczną i odpowiadać na zapytania matematyczne.

Połączenie tych różnorodnych źródeł danych jest niezbędne do wytrenowania potężnego modelu językowego, który poradzi sobie z wieloma różnymi zadaniami i formatami tekstu.

Wstępne przetwarzanie danych

Oto najważniejsze metody oczyszczania i filtrowania danych stosowane do danych treningowych:

  • Filtrowanie CSAM: rygorystyczne filtrowanie CSAM (materiały związane z wykorzystywaniem seksualnym dzieci) było stosowane na wielu etapach procesu przygotowywania danych, aby wykluczyć treści szkodliwe i nielegalne.
  • Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność już wytrenowanych modeli Gemma, do odfiltrowania określonych danych osobowych i innych danych wrażliwych ze zbiorów treningowych zastosowaliśmy zautomatyzowane techniki.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Informacje o wdrażaniu

Szczegółowe informacje o obiektach wewnętrznych modelu.

Urządzenie

Gemma została przeszkolona z wykorzystaniem najnowszej generacji procesora Tensor Processing Unit (TPU) (TPUv5p).

Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. TPU zaprojektowane specjalnie pod kątem operacji macierzy często używanych w systemach uczących się mają w tej domenie kilka zalet:

  • Wydajność: jednostki TPU są zaprojektowane do obsługi ogromnych zasobów obliczeniowych, które są wykorzystywane przy trenowaniu modeli LLM. Mogą one znacznie przyspieszyć trenowanie w porównaniu z procesorami.
  • Pamięć: jednostki TPU często mają dużą ilość pamięci o dużej przepustowości, co umożliwia obsługę dużych modeli i wielkości wsadu podczas trenowania. Może to polepszyć jakość modelu.
  • Skalowalność: pody TPU (duże klastry TPU) stanowią skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozłożyć trenowanie na wiele urządzeń TPU, aby przyspieszyć i usprawnić przetwarzanie.
  • Oszczędność: w wielu sytuacjach jednostki TPU mogą być tańszym rozwiązaniem do trenowania dużych modeli niż infrastruktura CPU, zwłaszcza pod kątem czasu i zasobów oszczędzanych dzięki szybszemu trenowaniu.
  • Te korzyści są zgodne ze zobowiązaniami Google do zrównoważonego działania.

Oprogramowanie

Trenowanie odbyło się przy użyciu narzędzi JAX i ML Pathways.

JAX pozwala badaczom wykorzystać najnowszą generację sprzętu, w tym TPU, do szybszego i bardziej efektywnego trenowania dużych modeli.

ML Pathways to najnowsze działania Google mające na celu stworzenie sztucznie inteligentnych systemów zdolnych do uogólniania w wielu zadaniach. Szczególnie nadaje się to do stosowania modeli podstawowych, w tym dużych modeli językowych (takich jak te).

JAX i ML Pathways są używane razem, zgodnie z opisem w publikacji na temat rodziny modeli Gemini. „Model programowania 'pojedynczego kontrolera' dla Jax i Pathways umożliwia użycie jednego procesu w języku Python do administrowania całym trenowaniem, znacząco upraszczając proces programowania”.

Ocena

Wskaźniki i wyniki oceny modelu.

Wyniki analizy porównawczej

Aby uwzględnić różne aspekty generowania tekstu, modele te zostały ocenione na podstawie dużego zbioru różnych zbiorów danych i danych:

Analiza porównawcza Wskaźnik Gemma PT 9B Gemma PT 27B
MMLU, 5 zdjęć, górne 1 71,3 75,2
HellaSwag 10-strzałowa 81,9 86,4
PIQA 0 strzałów 81,7 83,2
SocialIQA 0 strzałów 53,4 53,7
BoolQ 0 strzałów 84,2 84,8
WinoGrande wynik częściowy 80,6 83,7
ARC-e 0 strzałów 88,0 88,6
ARC-C 25-strzałowa 68,4 71,4
TriviaQA 5 strzałów 76,6 83,7
Pytania naturalne 5 strzałów 29,2 34,5
HumanEval karta@1 40,2 51,8
MBPP 3 uderzenia 52,4 62,6
GSM8K 5-shot, maj@1 68,6 74,0
MATH 4-strzałowe 36,6 42,3
AGIEval 3–5 strzałów 52,8 55,1
BIG-Bench 3-strzałowe, CT 68,2 74,9

Etyka i bezpieczeństwo

Podejście do oceny etyki i bezpieczeństwa oraz jej wyniki.

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowane oceny oraz wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły redakcyjne przeprowadziły wiele różnych zespołów, każdy z innymi celami i ocenami dokonanymi przez ludzi. Te modele zostały ocenione pod kątem wielu różnych kategorii związanych z etyką i bezpieczeństwem, w tym:

  • Bezpieczeństwo treści na podstawie tekstu na tekst: ocena manualna w promptach dotyczących zasad bezpieczeństwa, w tym wykorzystywania seksualnego dzieci i naruszania ich praw, nękania, przemocy i okrucieństwa oraz szerzenia nienawiści.
  • Tekst na tekst reprezentacyjny: analiza porównawcza z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i BBQ Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację.
  • Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak ryzyko chemiczne, biologiczne, radiologiczne i jądrowe (CBRN).

Wyniki oceny

Wyniki ocen etyki i bezpieczeństwa przekraczają akceptowalne progi zgodności z zasadami wewnętrznymi w przypadku takich kategorii jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody reprezentatywne, zapamiętanie czy wyrządzenia szkody na dużą skalę. Oprócz solidnych ocen wewnętrznych wyświetlane są tu wyniki znanych testów porównawczych bezpieczeństwa, takich jakgrill, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA.

Gemma 2.0

Analiza porównawcza Wskaźnik Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity średnia 8,25 8,84
Pary-ręki top-1 37,47 36,67
Grill Ambig 1-shot, Top-1 88,58 85,99
Rozbiórka grilla top-1 82,67 86,94
Winopłeć top-1 79,17 77,22
TruthfulQA 50,27 51,60
Winobias 1_2 78,09 81,94
Winobias 2_2 95,32 97,22
Toksyna 39,30 38,42

Użytkowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte duże modele językowe (LLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Ta lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista ma dostarczać informacji kontekstowych o możliwych zastosowaniach, które twórcy modeli uwzględnili w procesie trenowania i rozwijania modeli.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele mogą służyć do generowania kreatywnych formatów tekstu, takich jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: pozwalają na korzystanie z interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów lub interaktywnych aplikacji.
    • Podsumowanie tekstu: twórz zwięzłe streszczenia korpusu tekstowego, artykułów badawczych lub raportów.
  • Zespół badawczy i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): modele te mogą służyć badaczom za eksperymentowanie z technikami NLP, opracowywanie algorytmów i wspieranie rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspieraj interaktywne zajęcia językowe, pomagając w korygowaniu gramatyki lub ćwiczeniu pisania.
    • Eksploracja wiedzy: pomóż badaczom analizować duże ilości tekstu, generując podsumowania lub odpowiadając na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w dużym stopniu wpływają na możliwości modelu. Odchylenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, do których model może skutecznie obsługiwać.
  • Kontekst i złożoność zadania
    • LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
    • Ilość dostarczonego kontekstu może wpływać na wydajność modelu (dłuższy kontekst zwykle prowadzi do lepszych wyników, nawet do określonego momentu).
  • Niejednoznaczność języka i niuanse
    • Język naturalny jest z natury złożony. Duże modele językowe mogą mieć problemy z rozumieniem subtelnych niuansów, sarkazmu czy języka symbolicznego.
  • Dokładność informacji
    • LLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawdziwe lub nieaktualne twierdzenia oparte na faktach.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. W pewnych sytuacjach mogą nie mieć możliwości stosowania zdrowego rozsądku.

Względy etyczne i ryzyko

Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać uprzedzenia społeczno-kulturowe uwzględnione w materiałach szkoleniowych. Te modele zostały szczegółowo sprawdzone. Poddano je wstępnym przetwarzaniu danych wejściowych i oceniono je na tej karcie.
  • Nieprawdziwe informacje i niewłaściwe używanie
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Podane wskazówki dotyczące odpowiedzialnego korzystania z modelu znajdziesz w zestawie narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o architekturze modeli, ich możliwościach, ograniczeniach i procesach oceny.
    • Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami dzięki udostępnieniu technologii LLM deweloperom i badaczom w ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

  • Utrwalanie uprzedzeń: zalecamy stałe monitorowanie (za pomocą wskaźników oceny, sprawdzenie przez weryfikatora) i eksplorację technik unikania tendencyjności podczas trenowania modeli, dostrajania i innych przypadków użycia.
  • Generowanie szkodliwych treści: kluczowe znaczenie mają mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich środków ochrony treści na podstawie zasad obowiązujących w konkretnych usługach i przypadkach użycia aplikacji.
  • Niewłaściwe użycie do szkodliwych celów: ograniczenia techniczne oraz edukacja dla programistów i użytkowników może pomóc ograniczyć ryzyko szkodliwych aplikacji LLM. Udostępniamy zasoby edukacyjne i mechanizmy zgłaszania nadużyć, by umożliwić użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma zostały opisane w zasadach dotyczących niedozwolonych zastosowań aplikacji Gemma.
  • Naruszenie prywatności: modele zostały trenowane na podstawie danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów o ochronie prywatności i stosowania technik chroniących prywatność.

Zalety

W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność implementacji dużych, otwartych modeli językowych (LLM) w porównaniu z modelami o podobnej wielkości zaprojektowanych od podstaw z myślą o rozwoju odpowiedzialnej AI.

Korzystając ze wskaźników oceny porównawczej opisanych w tym dokumencie, modele te wykazują lepszą wydajność niż inne, porównywalne alternatywne modele otwarte.