Karta modelu RecurrentGemma

Strona modelu: RecurrentGemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

RecurrentGemma to rodzina modeli otwartych języków opartych na nowatorskiej, powtarzalnej architekturze opracowanej przez Google. Zarówno wersje wytrenowane, jak i dostrojone do indywidualnych potrzeb, są dostępne w języku angielskim.

Podobnie jak Gemma modele RecurrentGemma świetnie nadają się do różnych zadań związanych z generowaniem tekstu, w tym do odpowiadania na pytania, streszczania tekstu i rozumowania. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i uzyskuje szybsze wnioskowanie podczas generowania długich sekwencji.

Dane wejściowe i wyjściowe

  • Dane wejściowe: ciąg tekstowy (np. pytanie, prompt lub dokument do podsumowania).
  • Dane wyjściowe: tekst wygenerowany w języku angielskim w odpowiedzi na dane wejściowe (np. odpowiedź na pytanie lub podsumowanie dokumentu).

Cytowanie

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dane modelu

Zbiór danych treningowych i przetwarzanie danych

Funkcja RecurrentGemma korzysta z tych samych danych treningowych i przetwarzania danych, które są używane przez rodzinę modeli Gemma. Pełny opis znajdziesz na karcie modelu Gemma.

Informacje o wdrażaniu

Sprzęt i platformy używane podczas trenowania

Podobnie jak Gemma, zespół RecurrentGemma został wytrenowany w TPUv5e przy użyciu JAX i ścieżek ML.

Informacje o ocenie

Wyniki testów porównawczych

Metoda oceny

Aby uwzględnić różne aspekty generowania tekstu, modele te zostały ocenione na podstawie dużego zbioru różnych zbiorów danych i danych:

Wyniki oceny

Analiza porównawcza Wskaźnik RecurrentGemma 2B RecurrentGemma 9B
MMLU, 5 zdjęć, górne 1 38,4 60.5
HellaSwag 0 strzałów 71,0 80,4
PIQA 0 strzałów 78,5 81,3
SocialIQA 0 strzałów 51,8 52,3
BoolQ 0 strzałów 71,3 80,3
WinoGrande wynik częściowy 67,8 73,6
CommonsenseQA 7-strzałowe 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-C 42,3 52,0
TriviaQA 5 strzałów 52,5 70,5
Pytania naturalne 5 strzałów 11,5 21,7
HumanEval karta@1 21,3 31,1
MBPP 3 uderzenia 28,8 42,0
GSM8K maj@1 13.4 42,6
MATH 4-strzałowe 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Średnio 44,6 56,1

Etyka i bezpieczeństwo

Oceny etyki i bezpieczeństwa

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowane oceny oraz wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły redakcyjne przeprowadziły wiele różnych zespołów, każdy z innymi celami i ocenami dokonanymi przez ludzi. Te modele zostały ocenione pod kątem wielu różnych kategorii związanych z etyką i bezpieczeństwem, w tym:

  • Bezpieczeństwo treści na podstawie tekstu: ocena manualna w promptach dotyczących zasad bezpieczeństwa, w tym wykorzystywania seksualnego dzieci i naruszania ich praw, nękania, przemocy i okrucieństwa oraz szerzenia nienawiści.
  • Zagrożenia związane z zamianą tekstu na tekst: analiza porównawcza z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i grill Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację.
  • Zagrożenia na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak ryzyko zarażenia chemicznego, biologicznego, radiologicznego i jądrowego (CBRN), a także testy pod kątem perswazji i oszustwa, cyberbezpieczeństwa oraz autonomicznej replikacji.

Wyniki oceny

Wyniki ocen etyki i bezpieczeństwa przekraczają akceptowalne progi zgodności z zasadami wewnętrznymi w przypadku takich kategorii jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie czy szkody na dużą skalę. Oprócz rzetelnych ocen wewnętrznych przedstawiamy tu wyniki dobrze znanych testów porównawczych bezpieczeństwa, takich jak grill, Winogender, WinoBias, RealToxicity i TruthfulQA.

Analiza porównawcza Wskaźnik RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity średnio 9.8 7,60 10.3 8.8
Pogrubienie 39,3 52,3 39,8 47,9
Pary-ręki top-1 41,1 43,4 38,7 39,5
Grill Ambig top-1 62,6 71,1 95,9 67,1
Rozbiórka grilla top-1 58,4 50,8 78,6 78,9
Winopłeć top-1 55,1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toksyna 56,7 50,0 58,8 64,5

Wykorzystanie i ograniczenia modelu

Znane ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w dużym stopniu wpływają na możliwości modelu. Odchylenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary podmiotów, które model może skutecznie obsługiwać.
  • Kontekst i złożoność zadania
    • LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
    • Na wydajność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale do pewnego momentu).
  • Niejednoznaczność i niuanse językowe
    • Język naturalny jest z natury złożony. LLM mogą mieć problemy ze zrozumieniem subtelnych niuansów, sarkazmu i symbolu.
  • Informacje o prawidłowości
    • LLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawdziwe lub nieaktualne twierdzenia oparte na faktach.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. W niektórych sytuacjach mogą nie mieć możliwości stosowania zdrowego rozsądku.

Kwestie etyczne i zagrożenia

Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

  • Stronniczość i obiektywność
    • LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać uprzedzenia społeczno-kulturowe osadzone w materiałach szkoleniowych. Te modele zostały dokładnie sprawdzone, zostały wstępnie przetworzone i przetworzone z danych wejściowych oraz zostały ocenione na tej karcie.
  • Nieprawdziwe informacje i nadużycia
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
    • Wskazówki dotyczące odpowiedzialnego korzystania z modelu znajdziesz w artykule Responsible Generative AI Toolkit.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o architekturze modeli, ich możliwościach, ograniczeniach i procesach oceny.
    • Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami dzięki udostępnieniu technologii LLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i działania na ich rzecz:

  • Utrwalanie uprzedzeń: zalecamy stałe monitorowanie (za pomocą wskaźników oceny, sprawdzenie przez weryfikatora) i eksplorację technik unikania tendencyjności podczas trenowania modeli, dostrajania i innych przypadków użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich środków ochrony treści na podstawie zasad obowiązujących w konkretnych usługach i przypadkach użycia aplikacji.
  • Niewłaściwe użycie do szkodliwych celów: ograniczenia techniczne oraz edukacja dla programistów i użytkowników może pomóc ograniczyć ryzyko szkodliwych aplikacji LLM. Udostępniamy zasoby edukacyjne i mechanizmy zgłaszania nadużyć, by umożliwić użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma zostały opisane w Warunkach korzystania z usługi.
  • Naruszenia prywatności: modele trenowano na podstawie danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów i stosowania technik chroniących prywatność.

Przeznaczenie

Aplikacja

Otwarte duże modele językowe (LLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Ta lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista ma dostarczać informacji kontekstowych o możliwych zastosowaniach, które twórcy modeli uwzględnili w procesie trenowania i rozwijania modeli.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: tych modeli można używać do generowania kreatywnych formatów tekstu, takich jak wiersze, skrypty, kod, teksty marketingowe, wersje robocze e-maili itp.
    • Czatboty i konwersacyjna AI: umożliwiają obsługę interfejsów konwersacyjnych na potrzeby obsługi klienta, wirtualnych asystentów lub interaktywnych aplikacji.
    • Podsumowywanie tekstu: twórz zwięzłe streszczenia korpusu tekstowego, artykułów badawczych lub raportów.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): modele te mogą służyć badaczom jako podstawa eksperymentowania z technikami NLP i opracowywania algorytmów, a także przyczyniających się do rozwoju tej dziedziny.
    • Narzędzia do nauki języka: stymulują interaktywne naukę języka, pomagając w korygowaniu gramatyki lub w ćwiczeniu pisania.
    • Eksploracja wiedzy: pomóż badaczom analizować duże ilości tekstu, generując podsumowania lub odpowiadając na pytania dotyczące określonych tematów.

Zalety

W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność implementacji dużych, otwartych modeli językowych (LLM) w porównaniu z modelami o podobnej wielkości zaprojektowanych od podstaw z myślą o rozwoju odpowiedzialnej AI.

Korzystając ze wskaźników oceny porównawczej opisanych w tym dokumencie, modele te wykazują lepszą wydajność niż inne, porównywalne alternatywne modele otwarte.

W szczególności modele RecurrentGemma osiągają wydajność porównywalną do modeli Gemma, ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza w przypadku długich sekwencji.