Karta modelu RecurrentGemma

Strona modelu: RecurrentGemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

RecurrentGemma to rodzina otwartych modeli językowych opartych na nową architekturą rekurencyjną opracowaną przez Google. Dostępne są wersje wstępnie przetrenowane i dostrajane na podstawie instrukcji w języku angielskim.

Podobnie jak Gemma, modele RecurrentGemma nadają się do wykonywania różnych zadań związanych z generowaniem tekstu, w tym odpowiadania na pytania, podsumowania i wywoływania wniosków. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i osiąga szybsze wnioskowanie podczas generowania długich sekwencji.

Wejścia i wyjścia

  • Wejście: ciąg tekstowy (np. pytanie, prompt lub dokument do podsumowania).
  • Wyjście: wygenerowany tekst w języku angielskim jako odpowiedź na dane wejściowe (np. odpowiedź na pytanie, podsumowanie dokumentu).

Cytat

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dane modelu

Zbiór danych treningowych i przetwarzanie danych

RecurrentGemma korzysta z tych samych danych do trenowania i przetwarzania danych, co rodzina modeli Gemma. Pełny opis znajdziesz na karcie modelu Gemma.

Informacje o wdrożeniu

Sprzęt i ramy używane podczas szkolenia

Podobnie jak Gemma, RecurrentGemma została wytrenowana na TPUv5e, korzystając z JAXścieżek ML.

Informacje o ocenie

Wyniki testu porównawczego

Metoda oceny

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i danych pomiarowych, aby objąć różne aspekty generowania tekstu:

Wyniki oceny

Test porównawczy Dane RecurrentGemma 2B RecurrentGemma 9B
MMLU 5-shot, top-1 38,4 60.5
HellaSwag 0-shot 71,0 80,4
PIQA 0-shot 78,5 81,3
SocialIQA 0-shot 51,8 52,3
BoolQ 0-shot 71,3 80,3
WinoGrande wynik częściowy 67,8 73,6
CommonsenseQA 7-shot 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5-shot 52,5 70,5
Pytania naturalne 5-shot 11,5 21,7
HumanEval pass@1 21.3 31.1
MBPP 3-shot 28,8 42,0
GSM8K maj@1 13.4 42,6
MATH 4-shot 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Średnia 44,6 56.1

Etyka i bezpieczeństwo

Oceny etyczne i oceny bezpieczeństwa

Podejście do oceny

Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:

  • Bezpieczeństwo treści tekstowych: ocena przez człowieka promptów dotyczących zasad bezpieczeństwa, w tym nadużyć seksualnych i wykorzystywania dzieci, nękania, przemocy i drastycznych treści oraz szerzenia nienawiści.
  • Szkodzenie w reprezentowaniu treści w tekstach: porównywanie z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i BBQ Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację.
  • Szkodliwe działanie na dużą skalę: testy „niebezpiecznych możliwości”, takich jak zagrożenia chemiczne, biologiczne, radiologiczne i jądrowe (CBRN), a także testy dotyczące perswazji i oszulenia, cyberbezpieczeństwa oraz autonomicznej replikacji.

Wyniki oceny

Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych granicach, aby spełniać wewnętrzne zasady w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody wynikające z reprezentowania, zapamiętywanie i szkody na dużą skalę. Oprócz rzetelnych wewnętrznych ocen wyświetlane są tu wyniki znanych testów bezpieczeństwa, takich jak BBQ, Winogender, WinoBias, RealToxicity i TruthfulQA.

Test porównawczy Dane RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity Śr. 9.8 7,60 10.3 8.8
POGRUBIANIE 39,3 52,3 39,8 47,9
CrowS-Pairs top-1 41.1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71.1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64,0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Korzystanie z modelu i ograniczenia

Znane ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:

  • Dane treningowe
    • Jakość i różnorodność danych treningowych mają duży wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą ograniczać możliwości odpowiedzi modelu.
    • Zakres zbioru danych do trenowania określa obszary tematyczne, które model może skutecznie obsługiwać.
  • Złożoność kontekstu i zadania
    • Modele LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
    • Skuteczność modelu może zależeć od ilości podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, do pewnego momentu).
  • Niejednoznaczność i niuanse językowe
    • Język naturalny jest z natury złożony. Sieci neuronowe mogą mieć problemy z rozpoznawaniem subtelnych niuansów, sarkazmu lub języka obrazowego.
  • Dokładność informacji
    • Duże modele językowe generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są one bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
  • Zdrowy rozsądek
    • Duże modele językowe polegają na wzorach statystycznych w języku. W pewnych sytuacjach może brakować im zdrowego rozsądku.

Uwagi i zagrożenia etyczne

Rozwój dużych modeli językowych (LLM) budzi pewne wątpliwości etyczne. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • Duże modele językowe trenowane na dużych zbiorach danych tekstowych pochodzących z rzeczywistego świata mogą odzwierciedlać stereotypy społeczno-kulturowe zawarte w materiałach treningowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
  • Nieprawdziwe informacje i niewłaściwe użycie
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
    • Otwarty model opracowany w sposób odpowiedzialny daje możliwość dzielenia się innowacjami, ponieważ udostępnia technologię LLM programistom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczania:

  • Przekazywanie uprzedzeń: zalecamy prowadzenie ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzeń przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
  • Złe wykorzystanie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego wykorzystania modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie niewłaściwego użycia. Zabronione zastosowania modeli Gemma są opisane w naszych Warunkach korzystania z usługi.
  • Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych pod kątem usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.

Przeznaczenie

Aplikacja

Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele można wykorzystać do generowania tekstu kreacji w takich formatach jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: interfejsy konwersacyjne do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
    • Podsumowanie tekstu: generowanie zwięzłych podsumowań korpusów tekstowych, artykułów naukowych i raportów.
  • Badania i edukacja
    • Badania dotyczące przetwarzania języka naturalnego (NLP): te modele mogą służyć jako podstawa do eksperymentowania z technikami NLP, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.
    • Narzędzia do nauki języka: obsługa interaktywnych narzędzi do nauki języka, pomoc w poprawianiu błędów gramatycznych lub ćwiczenia pisania.
    • Poszukiwanie informacji:pomaga badaczom w przeszukiwaniu dużych zbiorów tekstu przez generowanie streszczeń lub udzielanie odpowiedzi na pytania dotyczące konkretnych tematów.

Zalety

W momencie wydania ta rodzina modeli zapewnia wydajne, otwarte implementacje dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach.

Na podstawie danych porównawczych opisanych w tym dokumencie okazało się, że te modele zapewniają lepszą skuteczność niż inne alternatywne otwarte modele o porównywalnej wielkości.

W szczególności modele RecurrentGemma osiągają porównywalne wyniki do modeli Gemma, ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza w przypadku długich sekwencji.