Strona modelu: RecurrentGemma
Zasoby i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie modelu
Opis
RecurrentGemma to rodzina otwartych modeli językowych opartych na powieści powracających opracowaną w Google. Obie opcje wytrenowanych i dostosowanych pod kątem instrukcji są dostępne w języku angielskim.
Podobnie jak Gemma modele RecurrentGemma dobrze nadają się do pisania różnorodnego tekstu. zadań związanych z generowaniem treści, w tym odpowiadania na pytania, streszczania i rozumowania. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i pozwala szybciej wnioskować podczas generowania długich sekwencji.
Dane wejściowe i wyjściowe
- Dane wejściowe: ciąg tekstowy (np. pytanie, prompt lub dokument, który ma zostać ).
- Dane wyjściowe: tekst w języku angielskim wygenerowany w odpowiedzi na dane wejściowe (np. odpowiedź na pytanie czy podsumowanie dokumentu).
Cytowanie
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dane modelu
Zbiór danych treningowych i przetwarzanie danych
RecurrentGemma korzysta z tych samych danych treningowych i przetwarzania danych, które są używane przez Rodzina modeli Gemma. Pełny opis można znaleźć na modelu Gemma .
Informacje o wdrażaniu
Sprzęt i platformy używane podczas trenowania
Polub Gemma Wytrenowano RecurrentGemma TPUv5e za pomocą JAX i ML Ścieżki.
Informacje o ocenie
Wyniki testów porównawczych
Metoda oceny
Modele te zostały ocenione w oparciu o duży zbiór różnych zbiorów danych aby uwzględnić różne aspekty generowania tekstu:
Wyniki oceny
Test porównawczy | Dane | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5 zdjęć, górne 1 | 38,4 | 60.5 |
HellaSwag | 0 strzałów | 71,0 | 80,4 |
PIQA | 0 strzałów | 78,5 | 81,3 |
SocialIQA | 0 strzałów | 51,8 | 52,3 |
BoolQ | 0 strzałów | 71,3 | 80,3 |
WinoGrande | wynik częściowy | 67,8 | 73,6 |
CommonsenseQA | 7-strzałowe | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5 strzałów | 52,5 | 70,5 |
Pytania naturalne | 5 strzałów | 11,5 | 21,7 |
HumanEval | karta@1 | 21,3 | 31,1 |
MBPP | 3 uderzenia | 28,8 | 42,0 |
GSM8K | maj@1 | 13.4 | 42,6 |
MATH | 4-strzałowe | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Średnio | 44,6 | 56,1 |
Etyka i bezpieczeństwo
Oceny etyki i bezpieczeństwa
Metoda oceny
Nasze metody oceny obejmują ustrukturyzowaną ocenę i wewnętrzny zespół red team testowanie odpowiednich zasad dotyczących treści. Członkowie Red Teams w różnych zespołach, a każdy z nich ma odmienne cele i wyznaczany przez ludzi. Te Ocena modeli w odniesieniu do z zakresu etyki i bezpieczeństwa, w tym:
- Bezpieczeństwo treści na tekst: ocena manualna w promptach dotyczących bezpieczeństwa zasady dotyczące m.in. wykorzystywania seksualnego dzieci i naruszania ich praw, nękania i przemocy okrucieństwo, szerzenie nienawiści.
- Zagrożenia związane z zawartością tekstu na tekst: analiza porównawcza z odpowiednimi problemami akademickimi takimi jak WinoBias i zestaw danych Grill.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych. łącznie z ryzykiem ujawnienia informacji umożliwiających identyfikację osób.
- Zagrożenia na dużą skalę: testy pod kątem „niebezpiecznych funkcji”, takich jak działania chemiczne, zagrożenia biologiczne, radiologiczne i jądrowe (CBRN); oraz testy perswazja i oszustwo, cyberbezpieczeństwo oraz autonomiczna replikacja.
Wyniki oceny
Wyniki ocen etyki i bezpieczeństwa mieszczą się w akceptowalnych progach dla spotkania wewnętrznego np. bezpieczeństwo dzieci, bezpieczeństwo treści, zagrożenie reprezentacją, zapamiętywania, szkodliwości na dużą skalę. Oprócz solidnych ocen wewnętrznych wyniki znanych testów porównawczych bezpieczeństwa, takich jak grill, Winogender, WinoBias, Tutaj pokazano toksyczność i TruthfulQA.
Test porównawczy | Dane | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | średnio | 9.8 | 7,60 | 10.3 | 8.8 |
BOLD | 39,3 | 52,3 | 39,8 | 47,9 | |
Pary-ręki | top-1 | 41,1 | 43,4 | 38,7 | 39,5 |
Grill Ambig | top-1 | 62,6 | 71,1 | 95,9 | 67,1 |
Rozbiórka grilla | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winopłeć | top-1 | 55,1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35,1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Wykorzystanie i ograniczenia modelu
Znane ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:
- Dane treningowe
- Jakość i różnorodność danych treningowych w dużym stopniu wpływają od możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić na ograniczenia w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne modelu co potrafi efektywnie obsługiwać.
- Kontekst i złożoność zadania
- LLM lepiej radzą sobie z zadaniami, które można uporządkować za pomocą jasnych promptów za instrukcje. Zadania otwarte lub bardzo złożone mogą być trudnym zadaniem.
- Na wydajność modelu może mieć wpływ ilość kontekstu (dłuższy kontekst prowadzi zwykle do lepszych wyników, w pewnym momencie).
- Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. LLM mogą mieć problemy ze zrozumieniem subtelne niuanse, sarkazm czy sformułowania.
- Informacje o prawidłowości
- LLM generują odpowiedzi na podstawie informacji ale nie są bazami wiedzy. Mogą generować niepoprawnych lub nieaktualnych twierdzeń.
- Zdrowy rozsądek
- LLM opierają się na wzorcach statystycznych w języku. Może im brakować umiejętność stosowania zdrowego rozsądku w określonych sytuacjach.
Kwestie etyczne i zagrożenia
Rozwój dużych modeli językowych (LLM) wiąże się z kilkoma obawami etycznymi. Podczas tworzenia modelu otwartego wzięliśmy pod uwagę te kwestie:
- Stronniczość i obiektywność
- LLM wytrenowane na dużych, rzeczywistych danych tekstowych mogą odzwierciedlać uprzedzeń socjokulturowych uwzględnionych w materiałach szkoleniowych. Te modele została dokładnie przyjęta. Wstępne przetwarzanie danych wejściowych zostało opisane oceny późniejsze uwzględnione na tej karcie.
- Nieprawdziwe informacje i nadużycia
- LLM mogą być niewłaściwie wykorzystywane do generowania tekstu, który jest fałszywy, wprowadzający w błąd lub szkodliwe.
- Podano wytyczne dotyczące odpowiedzialnego korzystania z modelem, zobacz Odpowiedzialna generatywna AI Zestaw narzędzi.
- Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o modelach architektura, możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie rozwijany model otwarty daje możliwość dzielenia się innowacyjnych rozwiązań, udostępniając technologię LLM programistom badaczy w całym ekosystemie AI.
Zidentyfikowane zagrożenia i działania na ich rzecz:
- Utrwalanie uprzedzeń: zachęcamy do ciągłego monitorowania. (za pomocą wskaźników oceny, weryfikacji manualnej) i odkrywania podczas trenowania modeli, dostrajania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące treści. bezpieczeństwo jest bardzo ważne. Zachęcamy deweloperów do zachowania ostrożności wdrożyć odpowiednie środki ochrony treści na podstawie zasadami dotyczącymi usług i przypadkami użycia aplikacji.
- Niewłaściwe użycie w celach szkodliwych: ograniczenia techniczne oraz edukacja użytkowników może pomóc ograniczyć ryzyko złośliwego oprogramowania LLM. Materiały edukacyjne i mechanizmy zgłaszania nadużyć są podany. Zabronione zastosowania modeli Gemma zostały opisane w Warunkach .
- Naruszenia prywatności: modele zostały trenowane na danych odfiltrowanych w celu usunięcia Informacje umożliwiające identyfikację osób. Zachęcamy deweloperów przestrzegać przepisów dotyczących prywatności, stosując techniki chroniące prywatność.
Przeznaczenie
Aplikacja
Otwarte duże modele językowe (LLM) mają szeroką gamę zastosowań z różnych branż i domen. Poniższa lista potencjalnych zastosowań nie jest kompleksowego. Ta lista ma zapewnić informacje kontekstowe o możliwych przypadkach użycia, które twórcy modeli uwzględnili w modelu szkoleniami i rozwojem.
- Tworzenie treści i komunikacja
- Generowanie tekstu: tych modeli można używać do generowania tekstu kreacji. takich jak wiersze, skrypty, kod, teksty marketingowe, wersje robocze e-maili itp.
- Czatboty i konwersacyjna AI: zaawansowane interfejsy konwersacyjne w obsługi klienta, wirtualnych asystentów i interaktywnych aplikacji.
- Podsumowywanie tekstu: generuje zwięzłe podsumowania korpusu tekstowego, artykułów badawczych lub raportów.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): modele te mogą być wykorzystywane jako podstawę do eksperymentowania z technikami NLP, opracowywać algorytmy i przyczyniać się do rozwoju tej dziedziny.
- Narzędzia do nauki języka: wspieraj interaktywną naukę języka. pomaga w poprawianiu gramatyki lub w ćwiczeniu pisania.
- Eksploracja wiedzy: pomóż badaczom badać duże ciała generowania podsumowań lub odpowiadania na pytania tematy.
Zalety
W chwili wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność, otwartą implementacji dużych modeli językowych (LLM) zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości;
Za pomocą wskaźników oceny porównawczej opisanych w tym dokumencie modele te wykazały, że model ten zapewnia większą wydajność niż inne, porównywalne rozmiary otwartego modelu i innych rozwiązań.
W szczególności modele RecurrentGemma uzyskują skuteczność porównywalną do skuteczności Gemma ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza długie sekwencje.