Karta modelu RecurrentGemma

Strona modelu: RecurrentGemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

RecurrentGemma to rodzina otwartych modeli językowych opartych na powieści powracających opracowaną w Google. Obie opcje wytrenowanych i dostosowanych pod kątem instrukcji są dostępne w języku angielskim.

Podobnie jak Gemma modele RecurrentGemma dobrze nadają się do pisania różnorodnego tekstu. zadań związanych z generowaniem treści, w tym odpowiadania na pytania, streszczania i rozumowania. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i pozwala szybciej wnioskować podczas generowania długich sekwencji.

Dane wejściowe i wyjściowe

  • Dane wejściowe: ciąg tekstowy (np. pytanie, prompt lub dokument, który ma zostać ).
  • Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe (np. odpowiedź na pytanie czy podsumowanie dokumentu).

Cytowanie

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dane modelu

Zbiór danych treningowych i przetwarzanie danych

RecurrentGemma korzysta z tych samych danych treningowych i przetwarzania danych, które są używane przez Rodzina modeli Gemma. Pełny opis można znaleźć na modelu Gemma .

Informacje o wdrażaniu

Sprzęt i platformy używane podczas trenowania

Polub Gemma Wytrenowano RecurrentGemma TPUv5e za pomocą JAX i ML Ścieżki.

Informacje o ocenie

Wyniki testów porównawczych

Metoda oceny

Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:

Wyniki oceny

Test porównawczy Dane RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 zdjęć, górne 1 38,4 60.5
HellaSwag 0 strzałów 71,0 80,4
PIQA 0 strzałów 78,5 81,3
SocialIQA 0 strzałów 51,8 52,3
BoolQ 0 strzałów 71,3 80,3
WinoGrande wynik częściowy 67,8 73,6
CommonsenseQA 7-strzałowe 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 strzałów 52,5 70,5
Pytania naturalne 5 strzałów 11,5 21,7
HumanEval karta@1 21,3 31,1
MBPP 3 uderzenia 28,8 42,0
GSM8K maj@1 13.4 42,6
MATH 4-strzałowe 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55,2
Średnio 44,6 56,1

Etyka i bezpieczeństwo

Oceny etyki i bezpieczeństwa

Metoda oceny

Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:

  • Bezpieczeństwo treści na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
  • Zagrożenia związane z zawartością tekstu na tekst: analiza porównawcza z odpowiednimi problemami akademickimi takimi jak WinoBias i zestaw danych Grill.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych. łącznie z ryzykiem ujawnienia informacji umożliwiających identyfikację osób.
  • Zagrożenia na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak działania chemiczne, zagrożenia biologiczne, radiologiczne i jądrowe (CBRN); oraz testy perswazja i oszustwo, cyberbezpieczeństwo oraz autonomiczna replikacja.

Wyniki oceny

Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach dla spotkania wewnętrznego np. bezpieczeństwo dzieci, bezpieczeństwo treści, zagrożenie reprezentacją, zapamiętywania, szkodliwości na dużą skalę. Oprócz solidnych ocen wewnętrznych wyniki znanych testów porównawczych bezpieczeństwa, takich jak grill, Winogender, WinoBias, Tutaj pokazano toksyczność i TruthfulQA.

Test porównawczy Dane RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity średnio 9.8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
Pary-ręki top-1 41,1 43,4 38,7 39,5
Grill Ambig top-1 62,6 71,1 95,9 67,1
Rozbiórka grilla top-1 58,4 50,8 78,6 78,9
Winopłeć top-1 55,1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Wykorzystanie i ograniczenia modelu

Znane ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w dużym stopniu wpływają od możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić na ograniczenia w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne modelu co potrafi efektywnie obsługiwać.
  • Kontekst i złożoność zadania
    • LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
    • Na wydajność modelu może mieć wpływ ilość kontekstu (dłuższy kontekst prowadzi zwykle do lepszych wyników, w pewnym momencie).
  • Niejednoznaczność i niuanse językowe
    • Język naturalny jest z natury złożony. LLM mogą mieć problemy ze zrozumieniem subtelne niuanse, sarkazm czy sformułowania.
  • Informacje o prawidłowości
    • LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. Może im brakować umiejętność stosowania zdrowego rozsądku w określonych sytuacjach.

Kwestie etyczne i zagrożenia

Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:

  • Stronniczość i obiektywność
    • LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać uprzedzeń socjokulturowych uwzględnionych w materiałach szkoleniowych. Te modele została dokładnie przyjęta. Wstępne przetwarzanie danych wejściowych zostało opisane oceny późniejsze uwzględnione na tej karcie.
  • Nieprawdziwe informacje i nadużycia
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwe.
    • Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Odpowiedzialna generatywna AI Zestaw narzędzi.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
    • Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjnych rozwiązań, udostępniając technologię LLM programistom badaczy w całym ekosystemie AI.

Zidentyfikowane zagrożenia i działania na ich rzecz:

  • Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania. (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące treści. bezpieczeństwo jest bardzo ważne. Zachęcamy deweloperów do zachowania ostrożności wdrożyć odpowiednie środki ochrony treści na podstawie zasadami dotyczącymi usług i przypadkami użycia aplikacji.
  • Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Warunkach .
  • Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia Informacje umożliwiające identyfikację osób. Zachęcamy deweloperów przestrzegać przepisów dotyczących prywatności, stosując techniki chroniące prywatność.

Przeznaczenie

Aplikacja

Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: tych modeli można używać do generowania tekstu kreacji. takich jak wiersze, skrypty, kod, teksty marketingowe, wersje robocze e-maili itp.
    • Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne w obsługi klienta, wirtualnych asystentów i interaktywnych aplikacji.
    • Podsumowywanie tekstu: generuje zwięzłe podsumowania korpusu tekstowego, artykułów badawczych lub raportów.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP): modele te mogą być wykorzystywane jako podstawę do eksperymentowania z technikami NLP, opracowywać algorytmy i przyczyniać się do rozwoju tej dziedziny.
    • Narzędzia do nauki języka: wspieraj interaktywną naukę języka. pomaga w poprawianiu gramatyki lub w ćwiczeniu pisania.
    • Eksploracja wiedzy: pomóż badaczom badać duże ciała generowania podsumowań lub odpowiadania na pytania tematy.

Zalety

W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;

Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.

W szczególności modele RecurrentGemma uzyskują skuteczność porównywalną do skuteczności Gemma ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza długie sekwencje.