Strona modelu: Gemma
Zasoby i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie oraz krótka definicja danych wejściowych i wyjściowych.
Opis
Gemma to rodzina lekkich, najnowocześniejszych modeli otwartych od Google, oparte na tych samych badaniach i technologii, których użyto do stworzenia modeli Gemini. To duże modele językowe (tekst na tekst) z samą dekoderem i dostępne w języku angielskim. z otwartymi wagami zarówno dla wariantów wytrenowanych, jak i tych dostrojonych pod kątem instrukcji. Modele Gemma świetnie nadają się do różnych zadań związanych z generowaniem tekstu, w tym udzielania odpowiedzi na pytania, streszczania i rozumowania. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptopa, komputera stacjonarnego lub infrastruktury w chmurze, co pozwala na demokratyzację dostępu z najnowocześniejszymi modelami AI i pomagającymi we wprowadzaniu innowacji z korzyścią dla wszystkich.
Dane wejściowe i wyjściowe
- Dane wejściowe: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowując.
- Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe, np. jako odpowiedź na pytanie lub podsumowanie dokumentu.
Cytowanie
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Dane modelu
Dane używane do trenowania modelu i sposób ich przetwarzania.
Zbiór danych treningowych
Modele te zostały wytrenowane na zbiorze danych tekstowych, który obejmuje wiele różnych źródeł. Model 27 mld został wytrenowany z użyciem 13 bilionów tokenów, wytrenowano przy użyciu 8 bilionów tokenów, a model 2 mld został wytrenowany z wykorzystaniem 2 bilionów tokenów. Oto jej najważniejsze elementy:
- Dokumenty internetowe: różnorodny zbiór tekstu z sieci zapewnia, że model jest widoczny po różne style, tematy i słownictwo. Głównie Treści w języku angielskim.
- Kod: udostępnienie modelu kodowi pomaga mu poznać składnię i wzorce języków programowania, które poprawiają ich zdolność do generowania kodu zrozumieć kwestie związane z kodem.
- Matematyka: trenowanie tekstu matematycznego pomaga modelowi nauczyć się podstaw logicznych rozumowania, przedstawiania symboli i zapytań matematycznych.
Połączenie różnych źródeł danych ma kluczowe znaczenie dla wytrenowania potężnego model językowy, który może obsługiwać szeroką gamę różnych zadań i tekstów formatów reklam.
Wstępne przetwarzanie danych
Oto najważniejsze metody oczyszczania i filtrowania danych stosowane do trenowania dane:
- Filtrowanie CSAM: rygorystyczne filtrowanie CSAM (materiały związane z wykorzystywaniem seksualnym dzieci) jest stosowane na wielu etapach procesu przygotowania danych, aby zapewnić do wykluczenia szkodliwych i nielegalnych treści.
- Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa wytrenowanym przez Gemma modeli stosowano zautomatyzowane techniki, aby odfiltrować oraz innych danych wrażliwych ze zbiorów treningowych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści oraz naszymi zasadami.
Informacje o wdrażaniu
Szczegółowe informacje o obiektach wewnętrznych modelu.
Sprzęt
Gemma została przeszkolona z wykorzystaniem najnowszej generacji Sprzęt Tensor Processing Unit (TPU) (TPUv5p)
Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. TPU, zaprojektowanych specjalnie z myślą o operacjach macierzy typowych dla systemów uczących się, wiele zalet tej domeny:
- Wydajność: jednostki TPU są zaprojektowane do obsługi zaawansowanych obliczeń w trenowaniu modeli LLM. Mogą znacznie przyspieszyć trenowanie w porównaniu procesory.
- Pamięć: jednostki TPU często mają dużą ilość pamięci o dużej przepustowości, co pozwala obsługi dużych modeli i wsadów podczas trenowania. Może to spowodować aby poprawić jakość modelu.
- Skalowalność: pody TPU (duże klastry TPU) to skalowalne rozwiązanie która radzi sobie ze rosnącą złożonością dużych modeli podstawowych. Możesz rozprowadzać trenowanie na wielu urządzeniach TPU w celu szybszego i wydajniejszego przetwarzania.
- Oszczędność: w wielu przypadkach jednostki TPU mogą być tańszym rozwiązaniem. do trenowania dużych modeli w porównaniu z infrastrukturą opartą na procesorach, zwłaszcza jeśli wziąć pod uwagę zaoszczędzony czas i zasoby szkolenia internetowego.
- Te zalety są powiązane z Zobowiązanie Google do zrównoważonego działania
Oprogramowanie
Trenowanie odbyło się przy użyciu narzędzi JAX i ML Pathways.
JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.
ML Pathways to najnowsze inicjatywy Google mające na celu stworzenie sztucznie inteligentnych systemów z możliwością uogólniania w wielu zadaniach. Ta funkcja jest szczególnie odpowiednia dla modele fundacyjne, w tym duże modele językowe (np. dla nich.
Ścieżki JAX i ML są wspólnie używane zgodnie z artykuł na temat rodziny modeli Gemini; „Singiel kontroler Jax and Pathways to model programowania Jax and Pathways, który pozwala na użycie jednego języka Python. i administruje całym procesem trenowania, znacznie upraszczając w procesie programowania”.
Ocena
Wskaźniki i wyniki oceny modelu.
Wyniki analizy porównawczej
Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:
Test porównawczy | Dane | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5 zdjęć, górne 1 | 51,3 | 71,3 | 75,2 |
HellaSwag | 10-strzałowa | 73,0 | 81,9 | 86,4 |
PIQA | 0 strzałów | 77,8 | 81,7 | 83,2 |
SocialIQA | 0 strzałów | 51,9 | 53,4 | 53,7 |
BoolQ | 0 strzałów | 72,5 | 84,2 | 84,8 |
WinoGrande | wynik częściowy | 70,9 | 80,6 | 83,7 |
ARC-e | 0 strzałów | 80,1 | 88,0 | 88,6 |
ARC-c | 25-strzałowa | 55,4 | 68,4 | 71,4 |
TriviaQA | 5 strzałów | 59,4 | 76,6 | 83,7 |
Pytania naturalne | 5 strzałów | 16,7 | 29,2 | 34,5 |
HumanEval | karta@1 | 17,7 | 40,2 | 51,8 |
MBPP | 3 uderzenia | 29,6 | 52,4 | 62,6 |
GSM8K | 5-shot, maj@1 | 23,9 | 68,6 | 74,0 |
MATH | 4-strzałowe | 15,0 | 36,6 | 42,3 |
AGIEval | 3–5 strzałów | 30,6 | 52,8 | 55,1 |
DROP | 3-shoty, F1 | 52,0 | 69,4 | 72,2 |
BIG-Bench | 3-strzałowe, CT | 41,9 | 68,2 | 74,9 |
Etyka i bezpieczeństwo
Podejście do oceny etyki i bezpieczeństwa oraz jej wyniki.
Metoda oceny
Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:
- Bezpieczeństwo treści na podstawie tekstu na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
- Treści przedstawiające przemoc w formie tekstu na tekst: analiza porównawcza z odpowiednimi środowiskami akademickimi takich jak WinoBias i BBQ Dataset.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację osób.
- Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji” takich jak chemiczne, ryzyka biologicznego, radiologicznego oraz jądrowego (CBRN).
Wyniki oceny
Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach w celu spełnienia wewnętrznych zasad dotyczących kategorii takich jak podrzędne. bezpieczeństwo, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie, szkody na dużą skalę. Oprócz solidnych ocen wewnętrznych, wyniki dobrze znanego bezpieczeństwa testy porównawcze takie jak grilla, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA; są widoczne w tym miejscu.
Gemma 2.0
Test porównawczy | Dane | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | średnia | 8,16 | 8,25 | 8,84 |
Pary-ręki | top-1 | 37,67 | 37,47 | 36,67 |
Grill Ambig | 1-shot, Top-1 | 83,20 | 88,58 | 85,99 |
Rozbiórka grilla | top-1 | 69,31 | 82,67 | 86,94 |
Winopłeć | top-1 | 52,91 | 79,17 | 77,22 |
TruthfulQA | 43,72 | 50,27 | 51,60 | |
Winobias 1_2 | 59,28 | 78,09 | 81,94 | |
Winobias 2_2 | 88,57 | 95,32 | 97,22 | |
Toxigen | 48,32 | 39,30 | 38,42 |
Ocena niebezpiecznych funkcji
Metoda oceny
Oceniliśmy wiele niebezpiecznych możliwości:
- Obraźliwe cyberbezpieczeństwo: umożliwia ocenę możliwości nadużyć modelu w kontekście cyberbezpieczeństwa, korzystamy zarówno z publicznie dostępnych, z platform Capture-the-Flag (CTF), takich jak InterCode-CTF czy Hack the Box, oraz wewnętrznych wyzwań CTF. Oceny te mierzą zdolności modelu do wykorzystywania luk w zabezpieczeniach i uzyskiwania nieautoryzowanego dostępu w symulowanych środowiskach.
- Samorozprzestrzenianie: oceniliśmy zdolność modelu do samopropagacja przez projektowanie zadań polegających na pozyskiwaniu zasobów, kodowaniu i interakcji z systemami zdalnymi. Oceny te oceniają zdolność modelu do niezależnej replikacji i rozprzestrzeniania się.
- Perswazja: aby ocenić zdolność modelu do perswazji przeprowadzaliśmy badania nad perswazją ludzi. Badania, o których mowa, scenariuszy mierzących zdolność modelu do nawiązywania dobrych relacji, przekonania oraz zachęcenie uczestników do konkretnych działań.
Wyniki oceny
Wszystkie oceny zostały szczegółowo opisane w Ocena modeli granicznych pod kątem możliwości niebezpiecznych W skrócie i w skrócie Raport techniczny Gemma 2
Ocena | Możliwości | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | Obraźliwe cyberbezpieczeństwo | Wyzwania 34/76 |
Wewnętrzna strona główna (CTF) | Obraźliwe cyberbezpieczeństwo | Wyzwania 1/13 |
Hack the Box | Obraźliwe cyberbezpieczeństwo | Wyzwania 0/13 |
Wczesne ostrzeżenie dotyczące autopromocji | Rozpowszechnianie treści | 1/10 wyzwań |
Zaokrąglony znaczek | Przekonywanie | Odsetek uczestników, którzy zgodzili się: 81% interesujące, 75% powtarzałoby, 80% kontaktowało się z innymi osobami |
Kliknij Linki | Przekonywanie | 34% uczestników |
Znajdź informacje | Przekonywanie | 9% uczestników |
Uruchom kod | Przekonywanie | 11% uczestników |
Rozmowy o pieniądzach | Przekonywanie | Średnia darowizna 3,72 GBP |
Sieć kłamstw | Przekonywanie | Średni wzrost o 18% w kierunku poprawnej wiary, 1% średni wzrost w kierunku błędne przekonanie |
Użytkowanie i ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele można stosować do generowania kreatywnych formatów tekstu takich jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
- Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne dla klienta takich jak wirtualni asystenci i interaktywne aplikacje.
- Streszczanie tekstu: generowanie zwięzłych streszczeń korpusu tekstowego, wyniki badań gazety czy raporty.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako która umożliwia badaczom eksperymentowanie z technikami NLP, i przyczyniają się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: wspieraj interaktywne zajęcia językowe pomaganie w poprawianiu gramatyki lub w ćwiczeniu pisania.
- Odkrywanie wiedzy: pomóż badaczom analizować duże ilości tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.
Ograniczenia
- Dane treningowe
- Jakość i różnorodność danych treningowych w dużym stopniu wpływają możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do: z ograniczeniami w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematów, które model może co robić skutecznie.
- Kontekst i złożoność zadania
- LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Na wydajność modelu może mieć wpływ ilość podanego kontekstu (Dłuższy kontekst prowadzi zwykle do lepszych wyników, do pewnego momentu).
- Niejednoznaczność języka i niuanse
- Język naturalny jest z natury złożony. LLM mogą mieć problemy z rozumieniem subtelnych niuansów, sarkazmu czy języka opisowego.
- Dokładność faktów
- LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
- Zdrowy rozsądek
- LLM opierają się na wzorcach statystycznych w języku. Może nie mieć odpowiednich umiejętności, na stosowanie w określonych sytuacjach zdrowego rozsądku.
Względy etyczne i ryzyko
Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać społeczno-kulturę uprzedzeń zawartych w materiałach szkoleniowych. Te modele zostały starannie przemyślane szczegółowa analiza, opisywane wstępne przetwarzanie danych wejściowych i weryfikacja widoczne na tej karcie.
- Nieprawdziwe informacje i niewłaściwe używanie
- LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
- Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
- Przejrzystość i odpowiedzialność:
- Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjności, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i środki zaradcze:
- Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są kluczowe. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednie środki ochrony treści na podstawie zasad dotyczących konkretnych usług i zastosowaniach aplikacji.
- Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Zasady dotyczące niedozwolonych zastosowań Gemma.
- Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację (Informacje umożliwiające identyfikację). Zachęcamy deweloperów z wykorzystaniem technik chroniących prywatność.
Zalety
W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;
Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.