Karta modelu RecurrentGemma

Strona modelu: RecurrentGemma

Zasoby i dokumentacja techniczna:

Warunki korzystania z usługi: warunki

Autorzy: Google

Informacje o modelu

Podsumowanie modelu

Opis

RecurrentGemma to rodzina otwartych modeli językowych opartych na powietrzu regeneratywnej architekturze opracowanej przez Google. W języku angielskim dostępne są wersje wytrenowane i dostrojone.

Podobnie jak Gemma, modele RecurrentGemma dobrze się sprawdzają w różnych zadaniach związanych z generowaniem tekstu, takich jak odpowiadanie na pytania, podsumowywanie i rozumowanie. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i szybciej wnioskowanie przy generowaniu długich sekwencji.

Wejścia i wyjścia

  • Dane wejściowe:ciąg tekstowy (np. pytanie, prompt lub dokument do podsumowania).
  • Dane wyjściowe: generowany tekst w języku angielskim w odpowiedzi na dane wejściowe (np. odpowiedź na pytanie, podsumowanie dokumentu).

Cytowanie

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dane modelu

Zbiór danych treningowych i przetwarzanie danych

RecurrentGemma korzysta z tych samych danych treningowych i przetwarzania danych co rodzina modeli Gemma. Pełny opis znajdziesz na karcie modelu Gemma.

Informacje o implementacji

Sprzęt i platformy używane podczas trenowania

Podobnie jak Gemma, witryna RecurrentGemma została wytrenowana na TPUv5e przy użyciu JAX i ścieżek ML.

Informacje o ocenie

Wyniki testu porównawczego

Metoda oceniania

Modele te zostały ocenione na podstawie dużego zbioru różnych zbiorów danych i danych, aby uwzględnić różne aspekty generowania tekstu:

Wyniki oceny

Analiza porównawcza Wskaźnik RecurrentGemma 2B
MMLU 5 ujęć, top 1 38,4
HellaSwag 0 strzałów 71,0
PIQA 0 strzałów 78,5
SocialIQA 0 strzałów 51,8
BoolQ 0 strzałów 71,3
WinoGrande wynik częściowy 67,8
CommonsenseQA 7 zdjęć 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42,3
TriviaQA 5-strzałowe 52,5
Pytania naturalne 5-strzałowe 11,5
HumanEval przekierowywanie@1 21,3
MBPP 3 strzały 28,8
GSM8K maj@1 13.4
MATH 4 strzały 11.0
AGIEval 23,8
BIG-Bench 35,3
Średnio 44,6

Etyka i bezpieczeństwo

Oceny etyki i bezpieczeństwa

Podejście do oceny

Nasze metody oceny obejmują ustrukturyzowane oceny i wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły Czerwone były prowadzone przez różne zespoły, każdy z innymi celami i wskaźnikami oceny manualnej. Modele te były oceniane według różnych kategorii związanych z etyką i bezpieczeństwem, w tym:

  • Bezpieczeństwo treści tekstowych: weryfikacja manualna promptów obejmujących zasady bezpieczeństwa, w tym molestowanie seksualne dzieci i wykorzystywanie dzieci, nękanie, przemoc i okrucieństwo oraz szerzenie nienawiści.
  • Zagrożenia związane z reprezentacją tekstu na tekst: analiza porównawcza z odpowiednimi zbiorami danych akademickimi, takimi jak WinoBias i grill Dataset.
  • Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyka ujawnienia informacji umożliwiających identyfikację osób.
  • Szkodliwe działanie na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak ryzyko chemiczne, biologiczne, radiologiczne i atomowe (CBRN), a także testy pod kątem perswazji, oszustw, cyberbezpieczeństwa i autonomicznej replikacji.

Wyniki oceny

Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych progach zgodności z zasadami wewnętrznymi w takich kategoriach jak bezpieczeństwo dzieci, bezpieczeństwo treści, wyrządzanie krzywdy przez reprezentację, zapamiętywanie czy wyrządzanie krzywdy na dużą skalę. Oprócz rzetelnych ocen wewnętrznych widoczne są tu wyniki dobrze znanych testów porównawczych dotyczących bezpieczeństwa, takich jak grill, Winogender, Winobias, RealToxicity i TruthfulQA.

Analiza porównawcza Wskaźnik RecurrentGemma 2B RecurrentGemma 2B IT
RealToxicity śr. 9.8 8,6
Pogrubiony 39,3 52,4
Pary CrowS top-1 41,1 43,4
BBQ Ambig top-1 62,6 71,1
BBQ Disambig top-1 58,4 50,8
Winogender top-1 55,1 54,7
TruthfulQA 35,1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 90,0 75,4
Toksygen 56,7 50,0

Wykorzystanie i ograniczenia modelu

Znane ograniczenia

Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:

  • Dane treningowe
    • Jakość i różnorodność danych treningowych w znacznym stopniu wpływają na możliwości modelu. Odchylenie lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, którymi model może efektywnie zarządzać.
  • Kontekst i złożoność zadań
    • LLM są lepsze w zadaniach, które można wykreować w ramach zrozumiałych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Na wydajność modelu wpływa ilość podanego kontekstu (dłuższy kontekst zazwyczaj prowadzi do lepszych wyników, nawet do określonego momentu).
  • Niejasne sformułowania i niuanse językowe
    • Język naturalny jest z założenia złożony. LLM mogą mieć problemy z uchwyceniem subtelnych niuansów, sarkazmu czy języka symbolicznego.
  • Zgodność faktów
    • LLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
  • Zdrowy rozsądek
    • LLM opierają się na wzorcach statystycznych w języku. W określonych sytuacjach mogą nie być w stanie kierować się zdrowym rozsądkiem.

Zagrożenia i kwestie etyczne

Rozwój dużych modeli językowych (LLM) rodzi kilka kwestii etycznych. Tworząc model otwarty, dokładnie wzięliśmy pod uwagę te kwestie:

  • Stronność i uczciwość
    • LLM trenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać socjo-kulturowe uprzedzenia zawarte w materiałach szkoleniowych. Modele te zostały dokładnie sprawdzone, opisane na tej karcie wstępnie przetwarzane dane wejściowe oraz przedstawione w kolejnych ocenach.
  • Nieprawdziwe informacje i niewłaściwe używanie
    • LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, mylący lub szkodliwy.
    • Udostępniamy wytyczne dotyczące odpowiedzialnego korzystania z modelu. Więcej informacji znajdziesz w pakiecie narzędzi do odpowiedzialnej generatywnej AI.
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie informacji o architekturze, możliwościach, ograniczeniach i procesach oceny modeli.
    • Odpowiedzialnie opracowany otwarty model umożliwia dzielenie się innowacjami przez udostępnienie technologii LLM programistom i badaczom w całym ekosystemie AI.

Zidentyfikowane ryzyko i łagodzenie:

  • Utrwalanie tendencyjności: zachęcamy do ciągłego monitorowania (przy użyciu wskaźników oceny, weryfikacji manualnej) i eksploracji technik unikania tendencyjności podczas trenowania modelu, dostrajania i innych przypadków użycia.
  • Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści mają kluczowe znaczenie. Zachęcamy deweloperów do zachowania ostrożności i wdrożenia odpowiednich środków ochrony bezpieczeństwa treści na podstawie konkretnych zasad w usługach i przypadków użycia aplikacji.
  • Niewłaściwe użycie w szkodliwych celach: ograniczenia techniczne oraz edukacja programistów i użytkowników mogą pomóc zmniejszyć ryzyko związane ze złośliwymi aplikacjami LLM. Zapewniamy zasoby edukacyjne i mechanizmy do zgłaszania nadużyć, które umożliwiają użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma są opisane w naszych Warunkach korzystania z usługi.
  • Naruszenia prywatności: modele były trenowane na danych odfiltrowanych pod kątem usuwania informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.

Zamierzone wykorzystanie

Aplikacja

Otwarte duże modele językowe (LLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista zawiera informacje kontekstowe na temat możliwych przypadków użycia, które twórcy modeli uwzględniali w trakcie trenowania i tworzenia modelu.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: modele te mogą służyć do generowania kreatywnych formatów tekstu, np. wierszy, skryptów, kodu, tekstu marketingowego, wersji roboczych e-maili itp.
    • Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
    • Podsumowywanie tekstu: umożliwia tworzenie zwięzłych podsumowań korpusu tekstowego, prac badawczych lub raportów.
  • Badania i edukacja
    • Badania dotyczące naturalnego przetwarzania języka (NLP): modele te mogą służyć naukowcom do eksperymentowania z technikami NLP, tworzenia algorytmów i wspierania rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspierają interaktywne procesy nauki języków, pomagające w poprawianiu gramatyki i ćwiczeniu pisania.
    • Eksploracja wiedzy: pomóż badaczom w analizowaniu dużych zbiorów tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Zalety

Ta rodzina modeli udostępnia w momencie premiery wydajne, otwarte, duże implementacje modeli językowych zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości.

Korzystając ze wskaźników oceny porównawczej opisanych w tym dokumencie, modele te wykazują większą wydajność niż inne, porównywalne wielkości alternatywne modele otwarte.

W szczególności modele RecurrentGemma osiągają wydajność porównywalną do modeli Gemma, ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza w przypadku długich sekwencji.