Karta modelu Gemma

Strona modelu: Gemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie i krótka definicja danych wejściowych i wyjściowych.

Opis

Gemma to rodzina lekkich, najnowocześniejszych otwartych modeli od Google opracowanych na podstawie tych samych badań i technologii, które służyły do tworzenia modeli Gemini. Są to duże modele językowe (tylko tekst na tekst) obsługujące tylko dekoder, dostępne w języku angielskim, z otwartą wagą, wytrenowanymi wariantami i wariantami dostrojonymi instrukcją. Modele gemma dobrze nadają się do różnych zadań generowania tekstu, takich jak odpowiadanie na pytania, podsumowywanie i rozumowanie. Ich stosunkowo nieduży rozmiar umożliwiają wdrażanie ich w środowiskach o ograniczonych zasobach, takich jak laptop, komputer czy Twoja własna infrastruktura w chmurze. Zapewnia to dostęp do najnowocześniejszych modeli sztucznej inteligencji i pomaga wszystkim tworzyć innowacje.

Wejścia i wyjścia

  • Dane wejściowe:ciąg tekstowy, np. pytanie, prompt lub dokument do podsumowania.
  • Dane wyjściowe: tekst w języku angielskim tworzony w odpowiedzi na dane wejściowe, np. odpowiedź na pytanie lub streszczenie dokumentu.

Cytowanie

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dane modelu

Dane używane do trenowania modelu i sposób ich przetwarzania.

Zbiór danych treningowych

Modele te zostały wytrenowane na zbiorze danych tekstowych obejmującym wiele różnych źródeł, co daje łącznie 6 bilionów tokenów. Oto najważniejsze elementy:

  • Dokumenty internetowe: różnorodny zbiór tekstów z internetu zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Głównie w języku angielskim.
  • Kod: prezentowanie modelu w kodzie pomaga mu poznać składnię i wzorce języków programowania, co zwiększa zdolność do generowania kodu i rozumienia pytań na jego temat.
  • Matematyka: trenowanie tekstu matematycznego pomaga modelowi nauczyć się myślenia logicznego i reprezentacji symbolicznej oraz rozwiązywać problemy z zapytaniami matematycznymi.

Połączenie tych zróżnicowanych źródeł danych jest niezbędne do wytrenowania zaawansowanego modelu językowego, który poradzi sobie z wieloma różnymi zadaniami i formatami tekstowymi.

Wstępne przetwarzanie danych

Oto najważniejsze metody czyszczenia i filtrowania danych treningowych:

  • Filtrowanie CSAM: rygorystyczne filtrowanie materiałów związanych z wykorzystywaniem seksualnym dzieci na wielu etapach procesu przygotowywania danych w celu wykluczenia szkodliwych i nielegalnych treści.
  • Filtrowanie danych wrażliwych: w ramach zapewnienia bezpieczeństwa i niezawodności wytrenowanych wstępnie modeli Gemma wykorzystano zautomatyzowane techniki do odfiltrowywania ze zbiorów treningowych określonych danych osobowych i innych danych wrażliwych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Informacje o wdrażaniu

Szczegółowe informacje o elementach wewnętrznych modelu.

Sprzęt

Gemma zostało przeszkolone z użyciem najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e).

Trenowanie dużych modeli językowych wymaga dużej mocy obliczeniowej. Jednostki TPU, zaprojektowane specjalnie pod kątem operacji na macierzach typowych dla systemów uczących się, mają w tej domenie kilka zalet:

  • Wydajność: jednostki TPU zostały zaprojektowane z myślą o obsłudze ogromnych obliczeń związanych z trenowaniem modeli LLM. Mogą znacznie przyspieszyć trenowanie w porównaniu z procesorami.
  • Pamięć: jednostki TPU często mają dużo pamięci o dużej przepustowości, co pozwala na obsługę dużych modeli i wsadów podczas trenowania. Może to poprawić jakość modelu.
  • Skalowalność: pody TPU (duże klastry TPU) stanowią skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozłożyć trenowanie na wiele urządzeń TPU, aby przyspieszyć i zwiększyć wydajność przetwarzania.
  • Opłacalność: w wielu sytuacjach TPU mogą być tańszym rozwiązaniem do trenowania dużych modeli niż infrastruktura oparta na procesorach, zwłaszcza pod kątem zaoszczędzonego czasu i zasobów dzięki szybszemu trenowaniu.
  • Korzyści te są zgodne ze zobowiązaniami Google dotyczącymi zrównoważonego działania.

Oprogramowanie

Trenowanie odbywało się z użyciem JAX i ML Pathways.

JAX umożliwia badaczom wykorzystanie sprzętu najnowszej generacji, w tym TPU, do szybszego i efektywniejszego trenowania dużych modeli.

ML Pathways to najnowszy projekt Google mający na celu zbudowanie sztucznie inteligentnych systemów zdolnych do uogólniania w wielu zadaniach. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.

Ścieżki JAX i ML razem są używane zgodnie z opisem w publikacji na temat modeli z rodziny Gemini. „Model programowania Jax i Pathways z jednym kontrolerem umożliwia administrowanie całym przebiegiem pracy za pomocą jednego procesu w Pythonie, co znacznie upraszcza cały proces programowania”.

Ocena

Wskaźniki i wyniki oceny modelu.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużego zbioru różnych zbiorów danych i danych, aby uwzględnić różne aspekty generowania tekstu:

Analiza porównawcza Wskaźnik Gemma PT 2B Gemma PT 7B
MMLU 5 ujęć, top 1 42,3 64,3
HellaSwag 0 strzałów 71,4 81,2
PIQA 0 strzałów 77,3 81,2
SocialIQA 0 strzałów 49,7 51,8
BoolQ 0 strzałów 69,4 83,2
WinoGrande wynik częściowy 65,4 72,3
CommonsenseQA 7 zdjęć 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5-strzałowe 53,2 63,4
Pytania naturalne 5-strzałowe 12,5 23,0
HumanEval przekierowywanie@1 22,0 32,3
MBPP 3 strzały 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 strzały 11,8 24,3
AGIEval 24,2 41,7
BIG-Bench 35,2 55,1
Średnio 44,9 56,4

Etyka i bezpieczeństwo

Podejście do oceny etyki i bezpieczeństwa oraz wyniki.

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowane oceny i wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły Czerwone były prowadzone przez różne zespoły, każdy z innymi celami i wskaźnikami oceny manualnej. Modele te były oceniane według różnych kategorii związanych z etyką i bezpieczeństwem, w tym:

  • Bezpieczeństwo treści tekstowych: ocena manualna promptów obejmujących zasady bezpieczeństwa, w tym molestowanie seksualne dzieci i wykorzystywanie dzieci, nękanie, przemoc i okrucieństwo oraz szerzenie nienawiści.
  • Zakłócenia reprezentatywne w przypadku zamiany tekstu na tekst – analiza porównawcza z odpowiednimi szkolnymi zbiorami danych, takimi jak WinoBias i BBQ Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyka ujawnienia informacji umożliwiających identyfikację.
  • Szkody na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak ryzyko chemiczne, biologiczne, radiologiczne i jądrowe (CBRN).

Wyniki oceny

Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w takich kategoriach jak bezpieczeństwo dzieci, bezpieczeństwo treści, wyrządzanie krzywdy związanej z reprezentacją, zapamiętywanie czy wyrządzanie krzywdy na dużą skalę. Oprócz rzetelnych ocen wewnętrznych widoczne są tu wyniki dobrze znanych testów porównawczych dotyczących bezpieczeństwa, takich jak grill, BOLD, Winogender, Winobias, RealToxicity i TruthfulQA.

Gemma 1.0

Analiza porównawcza Wskaźnik Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity średnia 6,86 7,90
Pogrubiony 45,57 49,08
Pary CrowS top-1 45,82 51,33
BBQ Ambig 1 ujęcie, top 1 62,58 92,54
BBQ Disambig top-1 54,62 71,99 EUR
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toksygen 29,77 39,59

Gemma 1.1

Analiza porównawcza Wskaźnik Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity średnia 7,03 8,04
Pogrubiony 47,76
Pary CrowS top-1 45,89 49,67
BBQ Ambig 1 ujęcie, top 1 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toksygen 29,64 38,75

Użytkowanie i ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Zamierzone użycie

Otwarte duże modele językowe (LLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista zawiera informacje kontekstowe na temat możliwych przypadków użycia, które twórcy modeli uwzględniali w trakcie trenowania i tworzenia modelu.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: modele te mogą służyć do generowania kreatywnych formatów tekstu, np. wierszy, skryptów, kodu, tekstu marketingowego i wersji roboczych e-maili.
    • Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
    • Podsumowywanie tekstu: twórz zwięzłe podsumowania korpusu tekstowego, prac badawczych lub raportów.
  • Zespół badawczy i edukacja
    • Badania dotyczące przetwarzania języka naturalnego (NLP): modele te mogą być podstawą dla badaczy do eksperymentowania z technikami NLP, opracowywania algorytmów i wspierania rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspieranie interaktywnych zajęć językowych, wspomagających poprawianie gramatyki oraz praktykę pisania.
    • Eksploracja wiedzy: pomóż badaczom analizować duże ilości tekstu, generując podsumowania lub odpowiadając na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w znacznym stopniu wpływają na możliwości modelu. Odchylenie lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, którymi model może skutecznie zarządzać.
  • Kontekst i złożoność zadań
    • LLM są lepsze w zadaniach, które można wykreować w ramach zrozumiałych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Na wydajność modelu może wpływać ilość podanego kontekstu (dłuższy kontekst zazwyczaj prowadzi do lepszych wyników, nawet do określonego momentu).
  • Niejasne i niejednoznaczne sformułowania językowe
    • Język naturalny jest z założenia złożony. LLM mogą mieć problem z uchwyceniem subtelnych niuansów, sarkazmu czy języka symbolicznego.
  • Dokładność faktów
    • LLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. W pewnych sytuacjach nie potrafią wykorzystać zdrowego rozsądku.

Względy etyczne i zagrożenia

Rozwój dużych modeli językowych (LLM) rodzi kilka kwestii etycznych. Tworząc model otwarty, dokładnie wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i uczciwość
    • LLM trenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać socjokulturowe uprzedzenia zawarte w materiałach szkoleniowych. Modele te zostały dokładnie sprawdzone, opisane na tej karcie wstępnie przetwarzane dane wejściowe oraz przedstawione w kolejnych ocenach.
  • Nieprawdziwe informacje i niewłaściwe użycie
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, szkodliwy lub mylący.
    • Udostępniamy wytyczne dotyczące odpowiedzialnego korzystania z modelu. Więcej informacji znajdziesz w zestawie narzędzi do odpowiedzialnej generatywnej AI (w języku angielskim).
  • Przejrzystość i odpowiedzialność:
    • Ta karta modelu zawiera podsumowanie informacji o architekturze, możliwościach, ograniczeniach i procesach oceny modeli.
    • Odpowiedzialnie opracowany otwarty model umożliwia dzielenie się innowacjami przez udostępnienie technologii LLM programistom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i środki:

  • Utrwalanie tendencyjności: zachęcamy do ciągłego monitorowania (przy użyciu wskaźników oceny, weryfikacji manualnej) i eksploracji technik unikania tendencyjności podczas trenowania modelu, dostrajania i innych przypadków użycia.
  • Generowanie szkodliwych treści: kluczowe są mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrożenia odpowiednich środków ochrony bezpieczeństwa treści na podstawie zasad obowiązujących w usługach i przypadków użycia aplikacji.
  • Niewłaściwe użycie w szkodliwych celach: ograniczenia techniczne oraz edukacja programistów i użytkowników mogą pomóc zmniejszyć ryzyko związane ze złośliwymi aplikacjami LLM. Zapewniamy zasoby edukacyjne i mechanizmy do zgłaszania nadużyć, które umożliwiają użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma zostały opisane w Zasadach dotyczących niedozwolonych zastosowań Gemma.
  • Naruszenia prywatności: modele były trenowane na danych odfiltrowanych pod kątem usuwania informacji umożliwiających identyfikację. Zachęcamy deweloperów do stosowania odpowiednich technik ochrony prywatności.

Zalety

Ta rodzina modeli udostępnia w momencie premiery wydajne, otwarte, duże implementacje modeli językowych zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości.

Korzystając ze wskaźników oceny porównawczej opisanych w tym dokumencie, modele te wykazują większą wydajność niż inne, porównywalne wielkości alternatywne modele otwarte.