Strona modelu: Gemma
Zasoby i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie oraz krótka definicja danych wejściowych i wyjściowych.
Opis
Gemma to rodzina lekkich, najnowocześniejszych modeli otwartych od Google, oparte na tych samych badaniach i technologii, których użyto do stworzenia modeli Gemini. To duże modele językowe (tekst na tekst) z samą dekoderem i dostępne w języku angielskim. z otwartymi wagami, wytrenowanymi wariantami i wariantami dostosowanymi do instrukcji. Gemma dobrze nadają się do różnych zadań związanych z generowaniem tekstu, w tym udzielania odpowiedzi na pytania, streszczania i rozumowania. Ich stosunkowo niewielki rozmiar umożliwia wdrażanie w środowiskach z ograniczonymi zasobami, takich jak laptopa, komputera stacjonarnego lub infrastruktury w chmurze, co pozwala na demokratyzację dostępu z najnowocześniejszymi modelami AI i pomagającymi we wprowadzaniu innowacji z korzyścią dla wszystkich.
Dane wejściowe i wyjściowe
- Dane wejściowe: ciąg tekstowy, np. pytanie, prompt lub dokument, który ma zostać podsumowując.
- Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe, np. jako odpowiedź na pytanie lub podsumowanie dokumentu.
Cytowanie
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
Dane modelu
Dane używane do trenowania modelu i sposób ich przetwarzania.
Zbiór danych treningowych
Modele te zostały wytrenowane na zbiorze danych tekstowych, który obejmuje wiele różnych wszystkich źródeł, co daje łącznie 6 bilionów tokenów. Oto jej najważniejsze elementy:
- Dokumenty internetowe: różnorodny zbiór tekstu z sieci zapewnia, że model jest widoczny po różne style, tematy i słownictwo. Głównie Treści w języku angielskim.
- Kod: udostępnienie modelu kodowi pomaga mu poznać składnię i wzorce języków programowania, które poprawiają ich zdolność do generowania kodu zrozumieć kwestie związane z kodem.
- Matematyka: trenowanie tekstu matematycznego pomaga modelowi nauczyć się podstaw logicznych rozumowania, przedstawiania symboli i zapytań matematycznych.
Połączenie różnych źródeł danych ma kluczowe znaczenie dla wytrenowania potężnego model językowy, który może obsługiwać szeroką gamę różnych zadań i tekstów formatów reklam.
Wstępne przetwarzanie danych
Oto najważniejsze metody oczyszczania i filtrowania danych stosowane do trenowania dane:
- Filtrowanie CSAM: rygorystyczne filtrowanie CSAM (materiały związane z wykorzystywaniem seksualnym dzieci) jest stosowane na wielu etapach procesu przygotowania danych, aby zapewnić do wykluczenia szkodliwych i nielegalnych treści.
- Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa wytrenowanym przez Gemma modeli stosowano zautomatyzowane techniki, aby odfiltrować oraz innych danych wrażliwych ze zbiorów treningowych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści oraz naszymi zasadami.
Informacje o wdrażaniu
Szczegółowe informacje o obiektach wewnętrznych modelu.
Sprzęt
Gemma została przeszkolona z wykorzystaniem najnowszej generacji Tensor Processing Unit (TPU) (TPUv5e)
Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. TPU, zaprojektowanych specjalnie z myślą o operacjach macierzy typowych dla systemów uczących się, wiele zalet tej domeny:
- Wydajność: jednostki TPU są zaprojektowane do obsługi zaawansowanych obliczeń w trenowaniu modeli LLM. Mogą znacznie przyspieszyć trenowanie w porównaniu procesory.
- Pamięć: jednostki TPU często mają dużą ilość pamięci o dużej przepustowości, co pozwala obsługi dużych modeli i wsadów podczas trenowania. Może to spowodować aby poprawić jakość modelu.
- Skalowalność: pody TPU (duże klastry TPU) to skalowalne rozwiązanie która radzi sobie ze rosnącą złożonością dużych modeli podstawowych. Możesz rozprowadzać trenowanie na wielu urządzeniach TPU w celu szybszego i wydajniejszego przetwarzania.
- Oszczędność: w wielu przypadkach jednostki TPU mogą być tańszym rozwiązaniem. do trenowania dużych modeli w porównaniu z infrastrukturą opartą na procesorach, zwłaszcza jeśli wziąć pod uwagę zaoszczędzony czas i zasoby szkolenia internetowego.
- Te zalety są powiązane z Zobowiązanie Google do zrównoważonego działania
Oprogramowanie
Trenowanie odbyło się przy użyciu narzędzi JAX i ML Pathways.
JAX pozwala badaczom na wykorzystanie najnowszej generacji sprzętu. w tym TPU, co umożliwia szybsze i efektywniejsze trenowanie dużych modeli.
ML Pathways to najnowsze inicjatywy Google mające na celu stworzenie sztucznie inteligentnych systemów z możliwością uogólniania w wielu zadaniach. Ta funkcja jest szczególnie odpowiednia dla modele fundacyjne, w tym duże modele językowe (np. dla nich.
Ścieżki JAX i ML są wspólnie używane zgodnie z artykuł na temat rodziny modeli Gemini; „Singiel kontroler Jax and Pathways to model programowania Jax and Pathways, który pozwala na użycie jednego języka Python. i administruje całym procesem trenowania, znacznie upraszczając w procesie programowania”.
Ocena
Wskaźniki i wyniki oceny modelu.
Wyniki analizy porównawczej
Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:
Test porównawczy | Dane | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5 zdjęć, górne 1 | 42,3 | 64,3 |
HellaSwag | 0 strzałów | 71,4 | 81,2 |
PIQA | 0 strzałów | 77,3 | 81,2 |
SocialIQA | 0 strzałów | 49,7 | 51,8 |
BoolQ | 0 strzałów | 69,4 | 83,2 |
WinoGrande | wynik częściowy | 65,4 | 72,3 |
CommonsenseQA | 7-strzałowe | 65,3 | 71,3 |
OpenBookQA | 47,8 | 52,8 | |
ARC-e | 73,2 | 81,5 | |
ARC-c | 42,1 | 53,2 | |
TriviaQA | 5 strzałów | 53,2 | 63,4 |
Pytania naturalne | 5 strzałów | 12,5 | 23,0 |
HumanEval | karta@1 | 22,0 | 32,3 |
MBPP | 3 uderzenia | 29,2 | 44,4 |
GSM8K | maj@1 | 17,7 | 46,4 |
MATH | 4-strzałowe | 11,8 | 24,3 |
AGIEval | 24,2 | 41,7 | |
BIG-Bench | 35,2 | 55,1 | |
Średnio | 44,9 | 56,4 |
Etyka i bezpieczeństwo
Podejście do oceny etyki i bezpieczeństwa oraz jej wyniki.
Metoda oceny
Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:
- Bezpieczeństwo treści na podstawie tekstu na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
- Treści przedstawiające przemoc w formie tekstu na tekst: analiza porównawcza z odpowiednimi środowiskami akademickimi takich jak WinoBias i BBQ Dataset.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację osób.
- Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji” takich jak chemiczne, ryzyka biologicznego, radiologicznego oraz jądrowego (CBRN).
Wyniki oceny
Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach w celu spełnienia wewnętrznych zasad dotyczących kategorii takich jak podrzędne. bezpieczeństwo, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie, szkody na dużą skalę. Oprócz solidnych ocen wewnętrznych, wyniki dobrze znanych zabezpieczeń testy porównawcze takie jak grilla, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA; są widoczne w tym miejscu.
Gemma 1.0
Test porównawczy | Dane | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | średnia | 6,86 | 7,90 |
BOLD | 45,57 | 49,08 | |
Pary-ręki | top-1 | 45,82 | 51,33 |
Grill Ambig | 1-shot, Top-1 | 62,58 | 92,54 |
Rozbiórka grilla | top-1 | 54,62 | 71,99 |
Winopłeć | top-1 | 51,25 | 54,17 |
TruthfulQA | 44,84 | 31,81 | |
Winobias 1_2 | 56,12 | 59,09 | |
Winobias 2_2 | 91,10 | 92,23 | |
Toxigen | 29,77 | 39,59 |
Gemma 1.1
Test porównawczy | Dane | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | średnia | 7,03 | 8,04 |
BOLD | 47,76 | ||
Pary-ręki | top-1 | 45,89 | 49,67 |
Grill Ambig | 1-shot, Top-1 | 58,97 | 86,06 |
Rozbiórka grilla | top-1 | 53,90 | 85,08 |
Winopłeć | top-1 | 50,14 | 57,64 |
TruthfulQA | 44,24 | 45,34 | |
Winobias 1_2 | 55,93 | 59,22 | |
Winobias 2_2 | 89,46 | 89,2 | |
Toxigen | 29,64 | 38,75 |
Użytkowanie i ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele można stosować do generowania kreatywnych formatów tekstu takich jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
- Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne dla klienta takich jak wirtualni asystenci i interaktywne aplikacje.
- Streszczanie tekstu: generowanie zwięzłych streszczeń korpusu tekstowego, wyniki badań gazety czy raporty.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą służyć jako która umożliwia badaczom eksperymentowanie z technikami NLP, i przyczyniają się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: wspieraj interaktywne zajęcia językowe pomaganie w poprawianiu gramatyki lub w ćwiczeniu pisania.
- Odkrywanie wiedzy: pomóż badaczom analizować duże ilości tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.
Ograniczenia
- Dane treningowe
- Jakość i różnorodność danych treningowych w dużym stopniu wpływają możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do: z ograniczeniami w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematów, które model może co robić skutecznie.
- Kontekst i złożoność zadania
- LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Na wydajność modelu może mieć wpływ ilość podanego kontekstu (Dłuższy kontekst prowadzi zwykle do lepszych wyników, do pewnego momentu).
- Niejednoznaczność języka i niuanse
- Język naturalny jest z natury złożony. LLM mogą mieć problemy z rozumieniem subtelnych niuansów, sarkazmu czy języka opisowego.
- Dokładność faktów
- LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
- Zdrowy rozsądek
- LLM opierają się na wzorcach statystycznych w języku. Może nie mieć odpowiednich umiejętności, na stosowanie w określonych sytuacjach zdrowego rozsądku.
Względy etyczne i ryzyko
Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać społeczno-kulturę uprzedzeń zawartych w materiałach szkoleniowych. Te modele zostały starannie przemyślane szczegółowa analiza, opisywane wstępne przetwarzanie danych wejściowych i weryfikacja widoczne na tej karcie.
- Nieprawdziwe informacje i niewłaściwe używanie
- LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
- Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Zestaw narzędzi do odpowiedzialnej generatywnej AI.
- Przejrzystość i odpowiedzialność:
- Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjności, udostępniając technologię LLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i środki zaradcze:
- Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są kluczowe. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednie środki ochrony treści na podstawie zasad dotyczących konkretnych usług i zastosowaniach aplikacji.
- Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Zasady dotyczące niedozwolonych zastosowań Gemma.
- Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację (Informacje umożliwiające identyfikację). Zachęcamy deweloperów z wykorzystaniem technik chroniących prywatność.
Zalety
W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;
Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.