Strona modelu: RecurrentGemma
Zasoby i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie modelu
Opis
RecurrentGemma to rodzina modeli otwartych języków opartych na nowatorskiej, powtarzalnej architekturze opracowanej przez Google. Zarówno wersje wytrenowane, jak i dostrojone do indywidualnych potrzeb, są dostępne w języku angielskim.
Podobnie jak Gemma modele RecurrentGemma świetnie nadają się do różnych zadań związanych z generowaniem tekstu, w tym do odpowiadania na pytania, streszczania tekstu i rozumowania. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i uzyskuje szybsze wnioskowanie podczas generowania długich sekwencji.
Dane wejściowe i wyjściowe
- Dane wejściowe: ciąg tekstowy (np. pytanie, prompt lub dokument do podsumowania).
- Dane wyjściowe: tekst wygenerowany w języku angielskim w odpowiedzi na dane wejściowe (np. odpowiedź na pytanie lub podsumowanie dokumentu).
Cytowanie
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dane modelu
Zbiór danych treningowych i przetwarzanie danych
Funkcja RecurrentGemma korzysta z tych samych danych treningowych i przetwarzania danych, które są używane przez rodzinę modeli Gemma. Pełny opis znajdziesz na karcie modelu Gemma.
Informacje o wdrażaniu
Sprzęt i platformy używane podczas trenowania
Podobnie jak Gemma, zespół RecurrentGemma został wytrenowany w TPUv5e przy użyciu JAX i ścieżek ML.
Informacje o ocenie
Wyniki testów porównawczych
Metoda oceny
Aby uwzględnić różne aspekty generowania tekstu, modele te zostały ocenione na podstawie dużego zbioru różnych zbiorów danych i danych:
Wyniki oceny
Analiza porównawcza | Wskaźnik | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU, | 5 zdjęć, górne 1 | 38,4 | 60.5 |
HellaSwag | 0 strzałów | 71,0 | 80,4 |
PIQA | 0 strzałów | 78,5 | 81,3 |
SocialIQA | 0 strzałów | 51,8 | 52,3 |
BoolQ | 0 strzałów | 71,3 | 80,3 |
WinoGrande | wynik częściowy | 67,8 | 73,6 |
CommonsenseQA | 7-strzałowe | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-C | 42,3 | 52,0 | |
TriviaQA | 5 strzałów | 52,5 | 70,5 |
Pytania naturalne | 5 strzałów | 11,5 | 21,7 |
HumanEval | karta@1 | 21,3 | 31,1 |
MBPP | 3 uderzenia | 28,8 | 42,0 |
GSM8K | maj@1 | 13.4 | 42,6 |
MATH | 4-strzałowe | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Średnio | 44,6 | 56,1 |
Etyka i bezpieczeństwo
Oceny etyki i bezpieczeństwa
Metoda oceny
Nasze metody oceny obejmują ustrukturyzowane oceny oraz wewnętrzne testy odpowiednich zasad dotyczących treści. Zespoły redakcyjne przeprowadziły wiele różnych zespołów, każdy z innymi celami i ocenami dokonanymi przez ludzi. Te modele zostały ocenione pod kątem wielu różnych kategorii związanych z etyką i bezpieczeństwem, w tym:
- Bezpieczeństwo treści na podstawie tekstu: ocena manualna w promptach dotyczących zasad bezpieczeństwa, w tym wykorzystywania seksualnego dzieci i naruszania ich praw, nękania, przemocy i okrucieństwa oraz szerzenia nienawiści.
- Zagrożenia związane z zamianą tekstu na tekst: analiza porównawcza z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i grill Dataset.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację.
- Zagrożenia na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak ryzyko zarażenia chemicznego, biologicznego, radiologicznego i jądrowego (CBRN), a także testy pod kątem perswazji i oszustwa, cyberbezpieczeństwa oraz autonomicznej replikacji.
Wyniki oceny
Wyniki ocen etyki i bezpieczeństwa przekraczają akceptowalne progi zgodności z zasadami wewnętrznymi w przypadku takich kategorii jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody związane z reprezentacją, zapamiętanie czy szkody na dużą skalę. Oprócz rzetelnych ocen wewnętrznych przedstawiamy tu wyniki dobrze znanych testów porównawczych bezpieczeństwa, takich jak grill, Winogender, WinoBias, RealToxicity i TruthfulQA.
Analiza porównawcza | Wskaźnik | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | średnio | 9.8 | 7,60 | 10.3 | 8.8 |
Pogrubienie | 39,3 | 52,3 | 39,8 | 47,9 | |
Pary-ręki | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
Grill Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
Rozbiórka grilla | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winopłeć | top-1 | 55,1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toksyna | 56,7 | 50,0 | 58,8 | 64,5 |
Wykorzystanie i ograniczenia modelu
Znane ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:
- Dane treningowe
- Jakość i różnorodność danych treningowych w dużym stopniu wpływają na możliwości modelu. Odchylenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary podmiotów, które model może skutecznie obsługiwać.
- Kontekst i złożoność zadania
- LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Na wydajność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale do pewnego momentu).
- Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. LLM mogą mieć problemy ze zrozumieniem subtelnych niuansów, sarkazmu i symbolu.
- Informacje o prawidłowości
- LLM generują odpowiedzi na podstawie informacji zdobytych ze zbiorów danych do trenowania, ale nie są bazami wiedzy. Mogą generować nieprawdziwe lub nieaktualne twierdzenia oparte na faktach.
- Zdrowy rozsądek
- LLM opierają się na wzorcach statystycznych w języku. W niektórych sytuacjach mogą nie mieć możliwości stosowania zdrowego rozsądku.
Kwestie etyczne i zagrożenia
Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:
- Stronniczość i obiektywność
- LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać uprzedzenia społeczno-kulturowe osadzone w materiałach szkoleniowych. Te modele zostały dokładnie sprawdzone, zostały wstępnie przetworzone i przetworzone z danych wejściowych oraz zostały ocenione na tej karcie.
- Nieprawdziwe informacje i nadużycia
- LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwy.
- Wskazówki dotyczące odpowiedzialnego korzystania z modelu znajdziesz w artykule Responsible Generative AI Toolkit.
- Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o architekturze modeli, ich możliwościach, ograniczeniach i procesach oceny.
- Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami dzięki udostępnieniu technologii LLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i działania na ich rzecz:
- Utrwalanie uprzedzeń: zalecamy stałe monitorowanie (za pomocą wskaźników oceny, sprawdzenie przez weryfikatora) i eksplorację technik unikania tendencyjności podczas trenowania modeli, dostrajania i innych przypadków użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich środków ochrony treści na podstawie zasad obowiązujących w konkretnych usługach i przypadkach użycia aplikacji.
- Niewłaściwe użycie do szkodliwych celów: ograniczenia techniczne oraz edukacja dla programistów i użytkowników może pomóc ograniczyć ryzyko szkodliwych aplikacji LLM. Udostępniamy zasoby edukacyjne i mechanizmy zgłaszania nadużyć, by umożliwić użytkownikom zgłaszanie nadużyć. Zabronione zastosowania modeli Gemma zostały opisane w Warunkach korzystania z usługi.
- Naruszenia prywatności: modele trenowano na podstawie danych odfiltrowanych w celu usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów i stosowania technik chroniących prywatność.
Przeznaczenie
Aplikacja
Otwarte duże modele językowe (LLM) mają szeroki zakres zastosowań w różnych branżach i domenach. Ta lista potencjalnych zastosowań nie jest wyczerpująca. Ta lista ma dostarczać informacji kontekstowych o możliwych zastosowaniach, które twórcy modeli uwzględnili w procesie trenowania i rozwijania modeli.
- Tworzenie treści i komunikacja
- Generowanie tekstu: tych modeli można używać do generowania kreatywnych formatów tekstu, takich jak wiersze, skrypty, kod, teksty marketingowe, wersje robocze e-maili itp.
- Czatboty i konwersacyjna AI: umożliwiają obsługę interfejsów konwersacyjnych na potrzeby obsługi klienta, wirtualnych asystentów lub interaktywnych aplikacji.
- Podsumowywanie tekstu: twórz zwięzłe streszczenia korpusu tekstowego, artykułów badawczych lub raportów.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): modele te mogą służyć badaczom jako podstawa eksperymentowania z technikami NLP i opracowywania algorytmów, a także przyczyniających się do rozwoju tej dziedziny.
- Narzędzia do nauki języka: stymulują interaktywne naukę języka, pomagając w korygowaniu gramatyki lub w ćwiczeniu pisania.
- Eksploracja wiedzy: pomóż badaczom analizować duże ilości tekstu, generując podsumowania lub odpowiadając na pytania dotyczące określonych tematów.
Zalety
W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność implementacji dużych, otwartych modeli językowych (LLM) w porównaniu z modelami o podobnej wielkości zaprojektowanych od podstaw z myślą o rozwoju odpowiedzialnej AI.
Korzystając ze wskaźników oceny porównawczej opisanych w tym dokumencie, modele te wykazują lepszą wydajność niż inne, porównywalne alternatywne modele otwarte.
W szczególności modele RecurrentGemma osiągają wydajność porównywalną do modeli Gemma, ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza w przypadku długich sekwencji.