Strona modelu: RecurrentGemma
Materiały i dokumentacja techniczna:
Warunki korzystania z usługi: Warunki
Autorzy: Google
Informacje o modelu
Podsumowanie modelu
Opis
RecurrentGemma to rodzina otwartych modeli językowych opartych na nową architekturą rekurencyjną opracowaną przez Google. Dostępne są wersje wstępnie przetrenowane i dostrajane na podstawie instrukcji w języku angielskim.
Podobnie jak Gemma, modele RecurrentGemma nadają się do wykonywania różnych zadań związanych z generowaniem tekstu, w tym odpowiadania na pytania, podsumowania i wywoływania wniosków. Ze względu na nowatorską architekturę RecurrentGemma wymaga mniej pamięci niż Gemma i osiąga szybsze wnioskowanie podczas generowania długich sekwencji.
Wejścia i wyjścia
- Wejście: ciąg tekstowy (np. pytanie, prompt lub dokument do podsumowania).
- Wyjście: wygenerowany tekst w języku angielskim jako odpowiedź na dane wejściowe (np. odpowiedź na pytanie, podsumowanie dokumentu).
Cytat
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
Dane modelu
Zbiór danych treningowych i przetwarzanie danych
RecurrentGemma korzysta z tych samych danych do trenowania i przetwarzania danych, co rodzina modeli Gemma. Pełny opis znajdziesz na karcie modelu Gemma.
Informacje o wdrożeniu
Sprzęt i ramy używane podczas szkolenia
Podobnie jak Gemma, RecurrentGemma została wytrenowana na TPUv5e, korzystając z JAX i ścieżek ML.
Informacje o ocenie
Wyniki testu porównawczego
Metoda oceny
Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i danych pomiarowych, aby objąć różne aspekty generowania tekstu:
Wyniki oceny
Test porównawczy | Dane | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5-shot, top-1 | 38,4 | 60.5 |
HellaSwag | 0-shot | 71,0 | 80,4 |
PIQA | 0-shot | 78,5 | 81,3 |
SocialIQA | 0-shot | 51,8 | 52,3 |
BoolQ | 0-shot | 71,3 | 80,3 |
WinoGrande | wynik częściowy | 67,8 | 73,6 |
CommonsenseQA | 7-shot | 63,7 | 73,2 |
OpenBookQA | 47,2 | 51,8 | |
ARC-e | 72,9 | 78,8 | |
ARC-c | 42,3 | 52,0 | |
TriviaQA | 5-shot | 52,5 | 70,5 |
Pytania naturalne | 5-shot | 11,5 | 21,7 |
HumanEval | pass@1 | 21.3 | 31.1 |
MBPP | 3-shot | 28,8 | 42,0 |
GSM8K | maj@1 | 13.4 | 42,6 |
MATH | 4-shot | 11.0 | 23,8 |
AGIEval | 23,8 | 39,3 | |
BIG-Bench | 35,3 | 55,2 | |
Średnia | 44,6 | 56.1 |
Etyka i bezpieczeństwo
Oceny etyczne i oceny bezpieczeństwa
Podejście do oceny
Nasze metody oceny obejmują oceny strukturalne i testy wewnętrznego zespołu ds. bezpieczeństwa dotyczące odpowiednich zasad dotyczących treści. W ramach red-teamingu przeprowadzono testy przez kilka różnych zespołów, z różnymi celami i wskaźnikami oceny. Modele te zostały ocenione pod kątem różnych kategorii związanych z etycznymi i bezpiecznymi rozwiązaniami, w tym:
- Bezpieczeństwo treści tekstowych: ocena przez człowieka promptów dotyczących zasad bezpieczeństwa, w tym nadużyć seksualnych i wykorzystywania dzieci, nękania, przemocy i drastycznych treści oraz szerzenia nienawiści.
- Szkodzenie w reprezentowaniu treści w tekstach: porównywanie z odpowiednimi zbiorami danych akademickich, takimi jak WinoBias i BBQ Dataset.
- Zapamiętywanie: automatyczna ocena zapamiętywania danych treningowych, w tym ryzyko ujawnienia informacji umożliwiających identyfikację.
- Szkodliwe działanie na dużą skalę: testy „niebezpiecznych możliwości”, takich jak zagrożenia chemiczne, biologiczne, radiologiczne i jądrowe (CBRN), a także testy dotyczące perswazji i oszulenia, cyberbezpieczeństwa oraz autonomicznej replikacji.
Wyniki oceny
Wyniki oceny etyki i bezpieczeństwa mieszczą się w akceptowalnych granicach, aby spełniać wewnętrzne zasady w kategoriach takich jak bezpieczeństwo dzieci, bezpieczeństwo treści, szkody wynikające z reprezentowania, zapamiętywanie i szkody na dużą skalę. Oprócz rzetelnych wewnętrznych ocen wyświetlane są tu wyniki znanych testów bezpieczeństwa, takich jak BBQ, Winogender, WinoBias, RealToxicity i TruthfulQA.
Test porównawczy | Dane | RecurrentGemma 2B | RecurrentGemma 2B IT | RecurrentGemma 9B | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | Śr. | 9.8 | 7,60 | 10.3 | 8.8 |
POGRUBIANIE | 39,3 | 52,3 | 39,8 | 47,9 | |
CrowS-Pairs | top-1 | 41.1 | 43,4 | 38,7 | 39,5 |
BBQ Ambig | top-1 | 62,6 | 71.1 | 95,9 | 67,1 |
BBQ Disambig | top-1 | 58,4 | 50,8 | 78,6 | 78,9 |
Winogender | top-1 | 55.1 | 54,7 | 59,0 | 64,0 |
TruthfulQA | 35.1 | 42,7 | 38,6 | 47,7 | |
WinoBias 1_2 | 58,4 | 56,4 | 61,5 | 60,6 | |
WinoBias 2_2 | 90,0 | 75,4 | 90,2 | 90,3 | |
Toxigen | 56,7 | 50,0 | 58,8 | 64,5 |
Korzystanie z modelu i ograniczenia
Znane ograniczenia
Te modele mają pewne ograniczenia, o których użytkownicy powinni wiedzieć:
- Dane treningowe
- Jakość i różnorodność danych treningowych mają duży wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą ograniczać możliwości odpowiedzi modelu.
- Zakres zbioru danych do trenowania określa obszary tematyczne, które model może skutecznie obsługiwać.
- Złożoność kontekstu i zadania
- Modele LLM lepiej radzą sobie z zadaniami, które można przedstawić za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne do wykonania.
- Skuteczność modelu może zależeć od ilości podanego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, do pewnego momentu).
- Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Sieci neuronowe mogą mieć problemy z rozpoznawaniem subtelnych niuansów, sarkazmu lub języka obrazowego.
- Dokładność informacji
- Duże modele językowe generują odpowiedzi na podstawie informacji z danych treningowych, ale nie są one bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia.
- Zdrowy rozsądek
- Duże modele językowe polegają na wzorach statystycznych w języku. W pewnych sytuacjach może brakować im zdrowego rozsądku.
Uwagi i zagrożenia etyczne
Rozwój dużych modeli językowych (LLM) budzi pewne wątpliwości etyczne. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:
- Uprzedzenia i obiektywność
- Duże modele językowe trenowane na dużych zbiorach danych tekstowych pochodzących z rzeczywistego świata mogą odzwierciedlać stereotypy społeczno-kulturowe zawarte w materiałach treningowych. Te modele zostały poddane dokładnej analizie, a ich dane wejściowe zostały poddane wstępnemu przetwarzaniu, jak opisano na tej karcie.
- Nieprawdziwe informacje i niewłaściwe użycie
- Sieci LLM mogą być wykorzystywane do generowania fałszywych, wprowadzających w błąd lub szkodliwych treści.
- Dostępne są wytyczne dotyczące odpowiedzialnego korzystania z modela. Zapoznaj się z zestawem narzędzi do odpowiedzialnego korzystania z generatywnej AI.
- Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie informacji o jego architekturze, możliwościach, ograniczeniach i procesach oceny.
- Otwarty model opracowany w sposób odpowiedzialny daje możliwość dzielenia się innowacjami, ponieważ udostępnia technologię LLM programistom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i sposoby ich ograniczania:
- Przekazywanie uprzedzeń: zalecamy prowadzenie ciągłego monitorowania (za pomocą wskaźników oceny i sprawdzeń przez człowieka) oraz stosowanie technik eliminowania uprzedzeń podczas trenowania modelu, dostosowywania i w innych przypadkach użycia.
- Generowanie szkodliwych treści: mechanizmy i wytyczne dotyczące bezpieczeństwa treści są niezbędne. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie konkretnych zasad dotyczących produktów i przypadków użycia aplikacji.
- Złe wykorzystanie do celów złośliwych: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w zwalczaniu złośliwego wykorzystania modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie niewłaściwego użycia. Zabronione zastosowania modeli Gemma są opisane w naszych Warunkach korzystania z usługi.
- Naruszenie prywatności: modele zostały wytrenowane na danych odfiltrowanych pod kątem usunięcia informacji umożliwiających identyfikację. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności przy użyciu technik chroniących prywatność.
Przeznaczenie
Aplikacja
Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i branżach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Lista ma na celu dostarczenie informacji kontekstowych na temat możliwych zastosowań, które twórcy modelu wzięli pod uwagę w ramach jego trenowania i rozwijania.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele można wykorzystać do generowania tekstu kreacji w takich formatach jak wiersze, skrypty, kod, teksty marketingowe czy wersje robocze e-maili.
- Czatboty i konwersacyjna AI: interfejsy konwersacyjne do obsługi klienta, wirtualnych asystentów i aplikacji interaktywnych.
- Podsumowanie tekstu: generowanie zwięzłych podsumowań korpusów tekstowych, artykułów naukowych i raportów.
- Badania i edukacja
- Badania dotyczące przetwarzania języka naturalnego (NLP): te modele mogą służyć jako podstawa do eksperymentowania z technikami NLP, tworzenia algorytmów i współtworzenia postępów w tej dziedzinie.
- Narzędzia do nauki języka: obsługa interaktywnych narzędzi do nauki języka, pomoc w poprawianiu błędów gramatycznych lub ćwiczenia pisania.
- Poszukiwanie informacji:pomaga badaczom w przeszukiwaniu dużych zbiorów tekstu przez generowanie streszczeń lub udzielanie odpowiedzi na pytania dotyczące konkretnych tematów.
Zalety
W momencie wydania ta rodzina modeli zapewnia wydajne, otwarte implementacje dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach.
Na podstawie danych porównawczych opisanych w tym dokumencie okazało się, że te modele zapewniają lepszą skuteczność niż inne alternatywne otwarte modele o porównywalnej wielkości.
W szczególności modele RecurrentGemma osiągają porównywalne wyniki do modeli Gemma, ale są szybsze podczas wnioskowania i wymagają mniej pamięci, zwłaszcza w przypadku długich sekwencji.