Karta modelu Gemma 2

Strona modelu: Gemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie oraz krótka definicja danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych modeli otwartych od Google, oparte na tych samych badaniach i technologii, których użyto do stworzenia modeli Gemini. To duże modele językowe (tekst na tekst) z samą dekoderem i dostępne w języku angielskim. z otwartymi wagami zarówno dla wariantów wytrenowanych, jak i tych dostrojonych pod kątem instrukcji. Modele Gemma świetnie nadają się do różnych zadań związanych z generowaniem tekstu, w tym udzielania odpowiedzi na pytania, streszczania i rozumowania. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptopa, komputera stacjonarnego lub infrastruktury w chmurze, co pozwala na demokratyzację dostępu z najnowocześniejszymi modelami AI i pomagającymi we wprowadzaniu innowacji z korzyścią dla wszystkich.

Dane wejściowe i wyjściowe

  • Dane wejściowe: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowując.
  • Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe, np. jako odpowiedź na pytanie lub podsumowanie dokumentu.

Cytowanie

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dane modelu

Dane używane do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych, który obejmuje wiele różnych źródeł. Model 27 mld został wytrenowany z użyciem 13 bilionów tokenów, wytrenowano przy użyciu 8 bilionów tokenów, a model 2 mld został wytrenowany z wykorzystaniem 2 bilionów tokenów. Oto jej najważniejsze elementy:

  • Dokumenty internetowe: różnorodny zbiór tekstu z sieci zapewnia, że model jest widoczny po różne style, tematy i słownictwo. Głównie Treści w języku angielskim.
  • Kod: udostępnienie modelu kodowi pomaga mu poznać składnię i wzorce języków programowania, które poprawiają ich zdolność do generowania kodu zrozumieć kwestie związane z kodem.
  • Matematyka: trenowanie tekstu matematycznego pomaga modelowi nauczyć się podstaw logicznych rozumowania, przedstawiania symboli i zapytań matematycznych.

Połączenie różnych źródeł danych ma kluczowe znaczenie dla wytrenowania potężnego model językowy, który może obsługiwać szeroką gamę różnych zadań i tekstów formatów reklam.

Wstępne przetwarzanie danych

Oto najważniejsze metody oczyszczania i filtrowania danych stosowane do trenowania dane:

  • Filtrowanie CSAM: rygorystyczne filtrowanie CSAM (materiały związane z wykorzystywaniem seksualnym dzieci) jest stosowane na wielu etapach procesu przygotowania danych, aby zapewnić do wykluczenia szkodliwych i nielegalnych treści.
  • Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa wytrenowanym przez Gemma modeli stosowano zautomatyzowane techniki, aby odfiltrować oraz innych danych wrażliwych ze zbiorów treningowych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści oraz naszymi zasadami.

Informacje o wdrażaniu

Szczegółowe informacje o obiektach wewnętrznych modelu.

Sprzęt

Gemma została przeszkolona z wykorzystaniem najnowszej generacji Sprzęt Tensor Processing Unit (TPU) (TPUv5p)

Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. TPU, zaprojektowanych specjalnie z myślą o operacjach macierzy typowych dla systemów uczących się, wiele zalet tej domeny:

  • Wydajność: jednostki TPU są zaprojektowane do obsługi zaawansowanych obliczeń w trenowaniu modeli LLM. Mogą znacznie przyspieszyć trenowanie w porównaniu procesory.
  • Pamięć: jednostki TPU często mają dużą ilość pamięci o dużej przepustowości, co pozwala obsługi dużych modeli i wsadów podczas trenowania. Może to spowodować aby poprawić jakość modelu.
  • Skalowalność: pody TPU (duże klastry TPU) to skalowalne rozwiązanie która radzi sobie ze rosnącą złożonością dużych modeli podstawowych. Możesz rozprowadzać trenowanie na wielu urządzeniach TPU w celu szybszego i wydajniejszego przetwarzania.
  • Oszczędność: w wielu przypadkach jednostki TPU mogą być tańszym rozwiązaniem. do trenowania dużych modeli w porównaniu z infrastrukturą opartą na procesorach, zwłaszcza jeśli wziąć pod uwagę zaoszczędzony czas i zasoby szkolenia internetowego.
  • Te zalety są powiązane z Zobowiązanie Google do zrównoważonego działania

Oprogramowanie

Trenowanie odbyło się przy użyciu narzędzi JAX i ML Pathways.

JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.

ML Pathways to najnowsze inicjatywy Google mające na celu stworzenie sztucznie inteligentnych systemów z możliwością uogólniania w wielu zadaniach. Ta funkcja jest szczególnie odpowiednia dla modele fundacyjne, w tym duże modele językowe (np. dla nich.

Ścieżki JAX i ML są wspólnie używane zgodnie z artykuł na temat rodziny modeli Gemini; „Singiel kontroler Jax and Pathways to model programowania Jax and Pathways, który pozwala na użycie jednego języka Python. i administruje całym procesem trenowania, znacznie upraszczając w procesie programowania”.

Ocena

Wskaźniki i wyniki oceny modelu.

Wyniki analizy porównawczej

Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:

Test porównawczy Dane Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 zdjęć, górne 1 51,3 71,3 75,2
HellaSwag 10-strzałowa 73,0 81,9 86,4
PIQA 0 strzałów 77,8 81,7 83,2
SocialIQA 0 strzałów 51,9 53,4 53,7
BoolQ 0 strzałów 72,5 84,2 84,8
WinoGrande wynik częściowy 70,9 80,6 83,7
ARC-e 0 strzałów 80,1 88,0 88,6
ARC-c 25-strzałowa 55,4 68,4 71,4
TriviaQA 5 strzałów 59,4 76,6 83,7
Pytania naturalne 5 strzałów 16,7 29,2 34,5
HumanEval karta@1 17,7 40,2 51,8
MBPP 3 uderzenia 29,6 52,4 62,6
GSM8K 5-shot, maj@1 23,9 68,6 74,0
MATH 4-strzałowe 15,0 36,6 42,3
AGIEval 3–5 strzałów 30,6 52,8 55,1
DROP 3-shoty, F1 52,0 69,4 72,2
BIG-Bench 3-strzałowe, CT 41,9 68,2 74,9

Etyka i bezpieczeństwo

Podejście do oceny etyki i bezpieczeństwa oraz jej wyniki.

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:

  • Bezpieczeństwo treści na podstawie tekstu na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
  • Treści przedstawiające przemoc w formie tekstu na tekst: analiza porównawcza z odpowiednimi środowiskami akademickimi takich jak WinoBias i BBQ Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację osób.
  • Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji” takich jak chemiczne, ryzyka biologicznego, radiologicznego oraz jądrowego (CBRN).

Wyniki oceny

Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach w celu spełnienia wewnętrznych zasad dotyczących kategorii takich jak podrzędne. bezpieczeństwo, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie, szkody na dużą skalę. Oprócz solidnych ocen wewnętrznych, wyniki dobrze znanego bezpieczeństwa testy porównawcze takie jak grilla, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA; są widoczne w tym miejscu.

Gemma 2.0

Test porównawczy Dane Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity średnia 8,16 8,25 8,84
Pary-ręki top-1 37,67 37,47 36,67
Grill Ambig 1-shot, Top-1 83,20 88,58 85,99
Rozbiórka grilla top-1 69,31 82,67 86,94
Winopłeć top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Ocena niebezpiecznych funkcji

Metoda oceny

Oceniliśmy wiele niebezpiecznych możliwości:

  • Obraźliwe cyberbezpieczeństwo: umożliwia ocenę możliwości nadużyć modelu w kontekście cyberbezpieczeństwa, korzystamy zarówno z publicznie dostępnych, z platform Capture-the-Flag (CTF), takich jak InterCode-CTF czy Hack the Box, oraz wewnętrznych wyzwań CTF. Oceny te mierzą zdolności modelu do wykorzystywania luk w zabezpieczeniach i uzyskiwania nieautoryzowanego dostępu w symulowanych środowiskach.
  • Samorozprzestrzenianie: oceniliśmy zdolność modelu do samopropagacja przez projektowanie zadań polegających na pozyskiwaniu zasobów, kodowaniu i interakcji z systemami zdalnymi. Oceny te oceniają zdolność modelu do niezależnej replikacji i rozprzestrzeniania się.
  • Perswazja: aby ocenić zdolność modelu do perswazji przeprowadzaliśmy badania nad perswazją ludzi. Badania, o których mowa, scenariuszy mierzących zdolność modelu do nawiązywania dobrych relacji, przekonania oraz zachęcenie uczestników do konkretnych działań.

Wyniki oceny

Wszystkie oceny zostały szczegółowo opisane w Ocena modeli granicznych pod kątem możliwości niebezpiecznych W skrócie i w skrócie Raport techniczny Gemma 2

Ocena Możliwości Gemma 2 IT 27B
InterCode-CTF Obraźliwe cyberbezpieczeństwo Wyzwania 34/76
Wewnętrzna strona główna (CTF) Obraźliwe cyberbezpieczeństwo Wyzwania 1/13
Hack the Box Obraźliwe cyberbezpieczeństwo Wyzwania 0/13
Wczesne ostrzeżenie dotyczące autopromocji Rozpowszechnianie treści 1/10 wyzwań
Zaokrąglony znaczek Przekonywanie Odsetek uczestników, którzy zgodzili się: 81% interesujące, 75% powtarzałoby, 80% kontaktowało się z innymi osobami
Kliknij Linki Przekonywanie 34% uczestników
Znajdź informacje Przekonywanie 9% uczestników
Uruchom kod Przekonywanie 11% uczestników
Rozmowy o pieniądzach Przekonywanie Średnia darowizna 3,72 GBP
Sieć kłamstw Przekonywanie Średni wzrost o 18% w kierunku poprawnej wiary, 1% średni wzrost w kierunku błędne przekonanie

Użytkowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele można stosować do generowania kreatywnych formatów tekstu takich jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne dla klienta takich jak wirtualni asystenci i interaktywne aplikacje.
    • Streszczanie tekstu: generowanie zwięzłych streszczeń korpusu tekstowego, wyniki badań gazety czy raporty.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako która umożliwia badaczom eksperymentowanie z technikami NLP, i przyczyniają się do rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspieraj interaktywne zajęcia językowe pomaganie w poprawianiu gramatyki lub w ćwiczeniu pisania.
    • Odkrywanie wiedzy: pomóż badaczom analizować duże ilości tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w dużym stopniu wpływają możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do: z ograniczeniami w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematów, które model może co robić skutecznie.
  • Kontekst i złożoność zadania
    • LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
    • Na wydajność modelu może mieć wpływ ilość podanego kontekstu (Dłuższy kontekst prowadzi zwykle do lepszych wyników, do pewnego momentu).
  • Niejednoznaczność języka i niuanse
    • Język naturalny jest z natury złożony. LLM mogą mieć problemy z rozumieniem subtelnych niuansów, sarkazmu czy języka opisowego.
  • Dokładność faktów
    • LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. Może nie mieć odpowiednich umiejętności, na stosowanie w określonych sytuacjach zdrowego rozsądku.

Względy etyczne i ryzyko

Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać społeczno-kulturę uprzedzeń zawartych w materiałach szkoleniowych. Te modele zostały starannie przemyślane szczegółowa analiza, opisywane wstępne przetwarzanie danych wejściowych i weryfikacja widoczne na tej karcie.
  • Nieprawdziwe informacje i niewłaściwe używanie
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
    • Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjności, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki zaradcze:

  • Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są kluczowe. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednie środki ochrony treści na podstawie zasad dotyczących konkretnych usług i zastosowaniach aplikacji.
  • Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Zasady dotyczące niedozwolonych zastosowań Gemma.
  • Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację (Informacje umożliwiające identyfikację). Zachęcamy deweloperów z wykorzystaniem technik chroniących prywatność.

Zalety

W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;

Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.