Strona modelu: Gemma
Materiały i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Ogólny opis i krótkie definicje danych wejściowych i wyjściowych.
Opis
Gemma to rodzina lekkich, najnowocześniejszych otwartych modeli Google, która powstała na podstawie tych samych badań i technologii, co modele Gemini. To duże modele językowe typu „tekst-tekst” z wykorzystaniem tylko dekodera, dostępne w języku angielskim, z otwartymi wagami zarówno w przypadku wariantów wytrenowanych wcześniej, jak i wariantów dostrojonych pod kątem instrukcji. Modele Gemma dobrze sprawdzają się w różnych zadaniach związanych z generowaniem tekstu, takich jak odpowiadanie na pytania, streszczanie i wyciąganie wniosków. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptop, komputer stacjonarny czy własna infrastruktura chmurowa. Dzięki temu każdy może korzystać z najnowocześniejszych modeli AI i wspierać innowacje.
Wejścia i wyjścia
- Wejście: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowany.
- Wyjście: wygenerowany tekst w języku angielskim jako odpowiedź na dane wejściowe, np. odpowiedź na pytanie lub podsumowanie dokumentu.
Cytat
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
Dane modelu
dane użyte do trenowania modelu i sposób ich przetwarzania.
Zbiór danych treningowych
Modele te zostały wytrenowane na zbiorze danych tekstowych pochodzących z różnych źródeł. Model 27B został wytrenowany na 13 bilionach tokenów, model 9B – na 8 bilionach tokenów, a model 2B – na 2 bilionach tokenów. Oto najważniejsze elementy:
- Dokumenty internetowe: zróżnicowana kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiego zakresu stylów językowych, tematów i słownictwa. treści w głównym stopniu w języku angielskim.
- Kod: model ma dostęp do kodu, co pomaga mu uczyć się składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu lub rozumienia pytań związanych z kodem.
- Matematyka: trenowanie na podstawie tekstu matematycznego pomaga modelowi w nauce rozumowania logicznego, reprezentacji symbolicznej i rozwiązywaniu zapytań matematycznych.
Połączenie tych różnych źródeł danych jest kluczowe dla trenowania wydajnego modelu językowego, który może obsługiwać wiele różnych zadań i formatów tekstowych.
Przetwarzanie wstępne danych
Oto główne metody czyszczenia i filtrowania danych zastosowane do danych treningowych:
- Filtrowanie treści CSAM: rygorystyczne filtrowanie treści CSAM (materiałów związanych z wykorzystywaniem seksualnym dzieci) zostało zastosowane na wielu etapach procesu przygotowywania danych, aby wykluczyć szkodliwe i nielegalne treści.
- Filtrowanie danych wrażliwych: aby wytrenowane wstępnie modele Gemma były bezpieczne i niezawodne, zastosowaliśmy automatyczne techniki do odfiltrowywania z zbiorów treningowych pewnych informacji osobistych i innych danych wrażliwych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.
Informacje o wdrożeniu
Szczegóły dotyczące wewnętrznych elementów modelu.
Sprzęt
Gemma została wyszkolona przy użyciu najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5p).
Trenowanie dużych modeli językowych wymaga znacznej mocy obliczeniowej. Jednostki TPU, zaprojektowane specjalnie do operacji na macierzach, które są powszechne w systemach uczących się, oferują w tym zakresie kilka zalet:
- Wydajność: procesory TPU zostały zaprojektowane specjalnie do obsługi ogromnych obliczeń, które są niezbędne do trenowania dużych modeli językowych. Mogą one znacznie przyspieszyć trenowanie w porównaniu z procesorami.
- Pamięć: TPU często mają dużo pamięci o dużej przepustowości, co umożliwia obsługę dużych modeli i wielkich rozmiarów wsadów podczas trenowania. Może to poprawić jakość modelu.
- Skalowalność: moduły TPU (duże klastry TPU) stanowią skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozłożyć proces uczenia na wiele urządzeń TPU, aby przyspieszyć i zoptymalizować przetwarzanie.
- Koszt: w wielu przypadkach TPU mogą stanowić bardziej ekonomiczne rozwiązanie do trenowania dużych modeli niż infrastruktura oparta na procesorach CPU, zwłaszcza jeśli weźmiemy pod uwagę czas i zasoby zaoszczędzone dzięki szybszemu trenowaniu.
- Te korzyści są zgodne z zobowiązaniami Google dotyczącymi zrównoważonego rozwoju.
Oprogramowanie
Trenowanie zostało wykonane za pomocą JAX i ścieżek ML.
JAX pozwala badaczom korzystać ze sprzętu najnowszej generacji, w tym TPU, aby szybciej i skuteczniej trenować duże modele.
ML Pathways to najnowsze osiągnięcie Google w dziedzinie tworzenia systemów sztucznej inteligencji, które potrafią uogólniać działania na potrzeby wielu zadań. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.
JAX i ML Pathways są używane razem zgodnie z opisem w artykule na temat rodziny modeli Gemini: „model programowania z jednym kontrolerem” w JAX i Pathways pozwala jednemu procesowi Pythona sterować całym procesem trenowania, co znacznie upraszcza proces programowania.
Ocena
Wyniki i wskaźniki oceny modelu.
Wyniki testu porównawczego
Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i danych pomiarowych, aby objąć różne aspekty generowania tekstu:
Test porównawczy | Dane | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
MMLU | 5-shot, top-1 | 51,3 | 71,3 | 75,2 |
HellaSwag | 10 ujęć | 73,0 | 81,9 | 86,4 |
PIQA | 0-shot | 77,8 | 81,7 | 83,2 |
SocialIQA | 0-shot | 51,9 | 53,4 | 53,7 |
BoolQ | 0-shot | 72,5 | 84,2 | 84,8 |
WinoGrande | wynik częściowy | 70,9 | 80,6 | 83,7 |
ARC-e | 0-shot | 80,1 | 88,0 | 88,6 |
ARC-c | 25-shot | 55,4 | 68,4 | 71,4 |
TriviaQA | 5-shot | 59,4 | 76,6 | 83,7 |
Pytania naturalne | 5-shot | 16,7 | 29,2 | 34,5 |
HumanEval | pass@1 | 17,7 | 40,2 | 51,8 |
MBPP | 3-shot | 29,6 | 52,4 | 62,6 |
GSM8K | 5-shot, maj@1 | 23,9 | 68,6 | 74,0 |
MATH | 4-shot | 15,0 | 36,6 | 42,3 |
AGIEval | 3–5 strzałów | 30,6 | 52,8 | 55.1 |
DROP | 3-shot, F1 | 52,0 | 69,4 | 72,2 |
BIG-Bench | 3-shot, CoT | 41,9 | 68,2 | 74,9 |
Etyka i bezpieczeństwo
podejście i wyniki oceny etyki i bezpieczeństwa;
Metoda oceny
Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:
- Bezpieczeństwo treści tekstowych: ocena ludzka na podstawie promptów obejmujących zasady bezpieczeństwa dotyczące m.in. wykorzystywania seksualnego i wykorzystywania dzieci, nękania, przemocy i okrucieństwa oraz wypowiedzi szerzących nienawiść.
- Szkodliwe skutki konwersji tekstu na tekst: porównanie z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i zbiór danych BBQ.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyka ujawnienia informacji umożliwiających identyfikację.
- Wyrządzanie szkód na dużą skalę: testowanie „potencjału do wyrządzania szkód”, takiego jak zagrożenia chemiczne, biologiczne, radiologiczne i jądrowe (CBRN).
Wyniki oceny
Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych granicach, aby spełniać zasady wewnętrzne w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody wynikające z reprezentowania, zapamiętywanie oraz szkody na dużą skalę. Oprócz solidnych wewnętrznych ocen uwzględniamy tu wyniki znanych testów bezpieczeństwa, takich jak BBQ, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA.
Gemma 2.0
Test porównawczy | Dane | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
RealToxicity | średnia | 8.16 | 8,25 | 8,84 |
CrowS-Pairs | top-1 | 37,67 | 37,47 | 36,67 |
BBQ Ambig | 1-shot, top-1 | 83,20 | 88,58 | 85,99 |
BBQ Disambig | top-1 | 69,31 | 82,67 | 86,94 |
Winogender | top-1 | 52,91 | 79,17 | 77,22 |
TruthfulQA | 43,72 | 50,27 | 51,60 | |
Winobias 1_2 | 59,28 | 78,09 | 81,94 | |
Winobias 2_2 | 88,57 | 95,32 | 97,22 | |
Toxigen | 48,32 | 39,30 | 38,42 |
Ocena niebezpiecznych możliwości
Metoda oceny
Oceniliśmy szereg niebezpiecznych funkcji:
- Ofensywna cyberbezpieczeństwo: aby ocenić potencjał modelu do niewłaściwego wykorzystania w kontekście cyberbezpieczeństwa, wykorzystaliśmy zarówno publicznie dostępne platformy Capture-the-Flag (CTF), takie jak InterCode-CTF i Hack the Box, jak i opracowane wewnętrznie wyzwania CTF. Te oceny mierzą zdolność modelu do wykorzystywania luk w zabezpieczeniach i uzyskiwania nieautoryzowanego dostępu w symulowanych środowiskach.
- Samodzielne rozprzestrzenianie: oceniliśmy zdolność modelu do samodzielnego rozprzestrzeniania się, opracowując zadania obejmujące pozyskiwanie zasobów, wykonywanie kodu i współdziałanie z systemami zdalnymi. Te oceny oceniają zdolność modelu do samodzielnego powielania i rozprzestrzeniania się.
- Perswazja: aby ocenić zdolność modelu do perswazji i oszustwa, przeprowadziliśmy badania dotyczące perswazji z udziałem ludzi. Badania obejmowały scenariusze, które mierzyły zdolność modelu do nawiązywania relacji, wpływania na przekonania i wywoływania określonych działań u człowieka.
Wyniki oceny
Szczegółowe informacje o wszystkich ocenach znajdziesz w artykule Ocena modeli na granicy możliwości pod kątem niebezpiecznych możliwości oraz w krótkim raporcie technicznym Gemma 2.
Ocena | Możliwości | Gemma 2 IT 27B |
---|---|---|
InterCode-CTF | Ofensywne cyberbezpieczeństwo | 34 z 76 wyzwań |
Wewnętrzny CTF | Ofensywne cyberbezpieczeństwo | 1/13 wyzwań |
Hack the Box | Ofensywne cyberbezpieczeństwo | 0/13 wyzwań |
Wczesne ostrzeganie o samorozprzestrzenianiu | samorozmnażanie się | Wyzwania 1/10 |
Ofensywa dyplomatyczna | Persuasion | Odsetek uczestników, którzy się z tym zgadzają: 81% ciekawe, 75% chętnie wzięliby udział ponownie, 80% nawiązało osobisty kontakt |
Klikanie linków | Persuasion | 34% uczestników |
Znajdowanie informacji | Persuasion | 9% uczestników |
Uruchom kod | Persuasion | 11% uczestników |
Pieniądze mają znaczenie | Persuasion | Średnia darowizna: 3,72 GBP |
Sieć kłamstw | Persuasion | Przesunięcie średniej o 18% w kierunku prawidłowego przekonania i o 1% w kierunku błędnego przekonania |
Zastosowanie i ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele można stosować do generowania formatów tekstowych kreacji, takich jak wiersze, skrypty, kod, teksty marketingowe i wersje robocze e-maili.
- Czatboty i konwersacyjna AI: tworzenie interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
- Podsumowanie tekstu: generowanie zwięzłych podsumowań korpusów tekstowych, artykułów naukowych i raportów.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako podstawa do eksperymentowania z technikami NLP, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.
- Narzędzia do nauki języka: umożliwiają interaktywne naukę języka, pomagają w poprawianiu błędów gramatycznych i umożliwiają ćwiczenie pisania.
- Eksploracja wiedzy: pomaga badaczom w przeglądaniu dużych zbiorów tekstu poprzez generowanie podsumowań lub udzielanie odpowiedzi na pytania dotyczące konkretnych tematów.
Ograniczenia
- Dane treningowe
- Jakość i różnorodność danych używanych do trenowania ma duży wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą ograniczać możliwości odpowiedzi modelu.
- Zakres zbioru danych do trenowania określa obszary tematyczne, które model może skutecznie obsługiwać.
- Kontekst i złożoność zadania
- Modele LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
- Na skuteczność modelu może mieć wpływ ilość podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, do pewnego momentu).
- Niejednoznaczność językowa i niuanse
- Język naturalny jest z natury złożony. Sieci LSTM mogą mieć problemy z uchwyceniem subtelności, sarkazmu lub języka obrazowego.
- Dokładność informacji
- Duże modele językowe generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są one bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
- Common Sense
- Duże modele językowe polegają na wzorach statystycznych w języku. W pewnych sytuacjach mogą nie być w stanie kierować się zdrowym rozsądkiem.
Uwagi i zagrożenia etyczne
Rozwój dużych modeli językowych (LLM) budzi pewne wątpliwości etyczne. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- Modele LLM trenowane na dużych zbiorach danych tekstowych pochodzących z rzeczywistego świata mogą odzwierciedlać uprzedzenia kulturowe i społeczne zawarte w materiałach treningowych. Modele te zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
- Nieprawdziwe informacje i nieprawidłowe użycie
- Modele LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
- Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modela. Zapoznaj się z narzędziami do odpowiedzialnego tworzenia generatywnej AI.
- Przejrzystość i odpowiedzialność:
- Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
- Otwarty model opracowany w sposób odpowiedzialny daje możliwość dzielenia się innowacjami, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i sposoby ich ograniczania:
- Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i sprawdzania przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i innych zastosowań.
- generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących ich produktów i przypadków użycia aplikacji.
- Niewłaściwe użycie do celów szkodliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu szkodliwego użycia LLM. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie niewłaściwego użycia. Zabronione zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań Gemma.
- Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych pod kątem usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.
Zalety
W momencie wydania ta rodzina modeli zapewnia wydajne, otwarte implementacje dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach.
Na podstawie danych porównawczych opisanych w tym dokumencie okazało się, że te modele zapewniają lepszą skuteczność niż inne alternatywne otwarte modele o porównywalnej wielkości.