Strona modelu: FunctionGemma
Materiały i dokumentacja techniczna:
- Zestaw narzędzi odpowiedzialnej generatywnej AI
- FunctionGemma w Kaggle
- FunctionGemma w bazie modeli Vertex
Warunki korzystania: Warunki
Autorzy: Google DeepMind
Informacje o modelu
Podsumowanie i krótka definicja danych wejściowych i wyjściowych.
Opis
UWAGA: model FunctionGemma jest przeznaczony do dostrajania pod kątem konkretnego zadania wywoływania funkcji, w tym przypadków użycia obejmujących wiele tur.
FunctionGemma to lekki, otwarty model od Google, który stanowi podstawę do tworzenia własnych wyspecjalizowanych modeli wywoływania funkcji. Model FunctionGemma nie jest przeznaczony do bezpośredniego prowadzenia dialogów. Został zaprojektowany tak, aby po dalszym dostrajaniu osiągać wysoką skuteczność, co jest typowe dla modeli tej wielkości. Model FunctionGemma został opracowany na podstawie modelu Gemma 3 270M i wykorzystuje te same badania i technologie, które posłużyły do stworzenia modeli Gemini. Został on wytrenowany specjalnie pod kątem wywoływania funkcji. Model ma taką samą architekturę jak Gemma 3, ale używa innego formatu czatu. Model ten dobrze sprawdza się w przypadku wywoływania funkcji tylko za pomocą tekstu. Dzięki wyjątkowo małym rozmiarom można go wdrażać w środowiskach o ograniczonych zasobach, takich jak laptopy, komputery stacjonarne czy własna infrastruktura w chmurze. Ułatwia to dostęp do najnowocześniejszych modeli AI i wspiera innowacje dla wszystkich. Podobnie jak podstawowy model Gemma 270M, ten model został zoptymalizowany pod kątem wszechstronności i wydajności na różnych urządzeniach w scenariuszach jednorazowych, ale aby uzyskać najlepszą dokładność w określonych domenach, należy go dostroić na podstawie danych dotyczących zadań jednorazowych lub wielorazowych. Aby pokazać, jak specjalizacja modelu z 270 milionami parametrów może zapewnić wysoką wydajność w przypadku konkretnych przepływów pracy opartych na agentach, wyróżniliśmy 2 przykłady zastosowań w aplikacji Galeria Google AI Edge.
Tiny Garden: model dostrojony do obsługi interaktywnej gry sterowanej głosem. Obsługuje logikę gry, aby zarządzać wirtualną działką, rozkładając polecenia takie jak „Posadź słoneczniki w górnym rzędzie” i „Podlej kwiaty na działkach 1 i 2” na funkcje specyficzne dla aplikacji (np. plant_seed, water_plots) i koordynując cele. Pokazuje to, że model może obsługiwać niestandardowe mechanizmy aplikacji bez połączenia z serwerem.
Działania na urządzeniach mobilnych: aby umożliwić deweloperom tworzenie własnych agentów ekspertów, opublikowaliśmy zbiór danych i przepis na dostrajanie, aby zademonstrować dostrajanie modelu FunctionGemma. Tłumaczy dane wejściowe użytkownika (np. „Utwórz wydarzenie w kalendarzu: obiad”, „Włącz latarkę”) na wywołania funkcji, które uruchamiają narzędzia systemowe Androida. Ten interaktywny notatnik pokazuje, jak na podstawie podstawowego modelu FunctionGemma utworzyć od zera dostrojoną wersję „Mobile Actions” do użytku w aplikacji Google AI Edge Gallery. Ten przypadek użycia pokazuje, że model może działać jako prywatny agent offline do wykonywania zadań na urządzeniu osobistym.
Wejścia i wyjścia
- Dane wejściowe:
- Ciąg tekstowy, np. pytanie, prompt lub dokument do podsumowania.
- Łączny kontekst wejściowy o wielkości 32 tys. tokenów
- Dane wyjściowe:
- Wygenerowany tekst w odpowiedzi na dane wejściowe, np. odpowiedź na pytanie lub podsumowanie dokumentu.
- Łączny kontekst wyjściowy do 32 tys. tokenów na żądanie, z odjęciem tokenów wejściowych żądania
Dane modelu
Dane użyte do trenowania modelu i sposób ich przetwarzania.
Zbiór danych treningowych
Modele te zostały wytrenowane na zbiorze danych tekstowych pochodzących z różnych źródeł. Model został wytrenowany na 6 bilionach tokenów. Granica wiedzy dla danych treningowych to sierpień 2024 r. Oto kluczowe komponenty:
- Definicje narzędzi publicznych – popularne interfejsy API w internecie
- Interakcje związane z używaniem narzędzi – to połączenie promptów, wywołań funkcji, odpowiedzi funkcji i odpowiedzi modelu w języku naturalnym, które służą do podsumowywania odpowiedzi funkcji lub proszenia o wyjaśnienia, gdy prompt jest niejednoznaczny lub niekompletny.
Wstępne przetwarzanie danych
Oto główne metody czyszczenia i filtrowania danych zastosowane w przypadku danych treningowych:
- Filtrowanie CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
- Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność wstępnie wytrenowanych modeli Gemma, zastosowaliśmy zautomatyzowane techniki filtrowania z zestawów treningowych określonych informacji osobistych i innych danych wrażliwych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.
Informacje o wdrożeniu
Szczegóły dotyczące wewnętrznych elementów modelu.
Sprzęt
Model Gemma został wytrenowany przy użyciu sprzętu Tensor Processing Unit (TPU) (TPUv4p, TPUv5p i TPUv5e). Trenowanie modeli wizualno-językowych (VLM) wymaga znacznej mocy obliczeniowej. Jednostki TPU, zaprojektowane specjalnie do operacji na macierzach, które są powszechne w uczeniu maszynowym, oferują w tej dziedzinie kilka zalet:
- Wydajność: jednostki TPU zostały zaprojektowane specjalnie do obsługi ogromnych obliczeń związanych z trenowaniem modeli VLM. Mogą znacznie przyspieszyć trenowanie w porównaniu z procesorami.
- Pamięć: procesory TPU często mają dużą ilość pamięci o wysokiej przepustowości, co umożliwia obsługę dużych modeli i rozmiarów wsadu podczas trenowania. Może to poprawić jakość modelu.
- Skalowalność: pody TPU (duże klastry TPU) zapewniają skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozdzielić trenowanie na wiele urządzeń TPU, aby przyspieszyć i usprawnić przetwarzanie.
- Opłacalność: w wielu przypadkach TPU mogą być bardziej opłacalnym rozwiązaniem do trenowania dużych modeli niż infrastruktura oparta na procesorach, zwłaszcza jeśli weźmie się pod uwagę czas i zasoby zaoszczędzone dzięki szybszemu trenowaniu.
- Te korzyści są zgodne z zobowiązaniami Google do prowadzenia działalności w sposób zrównoważony.
Oprogramowanie
Trenowanie odbyło się przy użyciu JAX i ML Pathways.
JAX umożliwia badaczom korzystanie z najnowszej generacji sprzętu, w tym TPU, co pozwala szybciej i wydajniej trenować duże modele. ML
Pathways to najnowsza inicjatywa Google mająca na celu tworzenie systemów sztucznej inteligencji
zdolnych do uogólniania wielu zadań. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.
JAX i ML Pathways są używane razem w sposób opisany w artykule o rodzinie modeli Gemini: „model programowania „pojedynczego kontrolera” w JAX i Pathways umożliwia jednemu procesowi Pythona koordynowanie całego procesu trenowania, co znacznie upraszcza proces tworzenia”.
Ocena
Wskaźniki i wyniki oceny modelu.
Wyniki testu porównawczego
| Benchmark | n-shot | Funkcja Gemma 270m |
|---|---|---|
| BFCL Simple | 0-shot | 61,6 |
| BFCL Parallel | 0-shot | 63,5 |
| BFCL Multiple | 0-shot | 39 |
| BFCL Parallel Multiple | 0-shot | 29,5 |
| BFCL Live Simple | 0-shot | 36,2 |
| BFCL Live Parallel | 0-shot | 25,7 |
| BFCL Live Multiple | 0-shot | 22,9 |
| BFCL Live Parallel Multiple | 0-shot | 20,8 |
| Trafność BFCL | 0-shot | 61,1 |
| Nietrafność BFCL | 0-shot | 70,6 |
Wpływ na skuteczność po dostrojeniu na zbiorze danych „Działania na urządzeniach mobilnych”
Aby wykazać wartość specjalizacji w przypadku małych modeli językowych, porównaliśmy podstawowy model FunctionGemma z modelem dostrojonym za pomocą przepisu „Działania na urządzeniach mobilnych”.
Dostrajanie znacznie poprawiło zdolność podstawowego modelu FunctionGemma do prawidłowego rozpoznawania i formatowania wywołań systemowych na urządzeniach mobilnych.
Model |
Wyniki oceny działań na urządzeniach mobilnych |
|---|---|
Model Base FunctionGemma |
58% |
Dostrajanie działań na urządzeniach mobilnych |
85% |
Wydajność na urządzeniu w przypadku dostosowanych zastosowań modelu Gemma 270M
Dostosowane zastosowania zostały przetestowane na urządzeniu Samsung S25 Ultra, aby ocenić opóźnienie i zajętość pamięci na urządzeniu.
- Kontekst: 512 tokenów wstępnych i 32 tokeny dekodowania.
- Sprzęt: procesor S25 Ultra z delegatem LiteRT XNNPACK i 4 wątkami.
Wydajność działań na urządzeniu mobilnym
Backend |
Schemat kwantyzacji |
Długość kontekstu |
Wypełnianie wstępne (tokeny na sekundę) |
Dekodowanie (tokeny na sekundę) |
Czas do pierwszego tokena (w sekundach) |
Rozmiar modelu (MB) |
Maksymalny rozmiar RSS pamięci (MB) |
|---|---|---|---|---|---|---|---|
Procesor |
dynamic_int8 |
1024 |
1718 |
125.9 |
0.3 |
288 |
551 |
Tiny Garden On Device Performance
Backend |
Schemat kwantyzacji |
Długość kontekstu |
Wypełnianie wstępne (tokeny na sekundę) |
Dekodowanie (tokeny na sekundę) |
Czas do pierwszego tokena (w sekundach) |
Rozmiar modelu (MB) |
Maksymalny rozmiar RSS pamięci (MB) |
|---|---|---|---|---|---|---|---|
Procesor |
dynamic_int8 |
1024 |
1743 |
125.7 |
0.3 |
288 |
549 |
Etyka i bezpieczeństwo
Podejście do oceny etyki i bezpieczeństwa oraz wyniki.
Podejście do oceny
Nasze metody oceny obejmują strukturalne oceny i wewnętrzne testy red-teamingowe odpowiednich zasad dotyczących treści. Testy typu red-teaming przeprowadziło kilka różnych zespołów, z których każdy miał inne cele i inne wskaźniki oceny przez ludzi. Te modele zostały ocenione pod kątem różnych kategorii związanych z etyką i bezpieczeństwem, w tym:
- Bezpieczeństwo dzieci: ocena promptów typu tekst – tekst i obraz – tekst pod kątem zgodności z zasadami dotyczącymi bezpieczeństwa dzieci, w tym wykorzystywania seksualnego dzieci.
- Bezpieczeństwo treści: ocena promptów tekstowych i obrazów pod kątem zgodności z zasadami bezpieczeństwa, w tym dotyczącymi nękania, przemocy i drastycznych treści oraz szerzenia nienawiści.
- Szkody związane z reprezentacją: ocena promptów tekstowych i obrazkowych pod kątem zgodności z zasadami bezpieczeństwa, w tym dotyczącymi uprzedzeń, stereotypów, szkodliwych skojarzeń i nieścisłości.
Wyniki oceny
We wszystkich obszarach testów bezpieczeństwa odnotowaliśmy znaczne ulepszenia w kategoriach bezpieczeństwa dzieci, bezpieczeństwa treści i szkód związanych z reprezentacją w porównaniu z poprzednimi modelami Gemma. Wszystkie testy przeprowadzono bez filtrów bezpieczeństwa, aby ocenić możliwości i zachowania modelu. Model wygenerował minimalną liczbę naruszeń zasad i wykazał znaczną poprawę w porównaniu z poprzednimi modelami Gemma w zakresie nieuzasadnionych wniosków. Ograniczeniem naszych ocen było to, że obejmowały one tylko prompty w języku angielskim.
Użytkowanie i ograniczenia
Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Ten model nie jest przeznaczony do bezpośredniego prowadzenia dialogu.
Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele mogą być używane do generowania kreatywnych formatów tekstu, takich jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
- Czatboty i konwersacyjna AI: wzmacniaj interfejsy konwersacyjne w obsłudze klienta, wirtualnych asystentach i aplikacjach interaktywnych.
- Podsumowywanie tekstu: generowanie zwięzłych podsumowań korpusu tekstowego, artykułów naukowych lub raportów.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą stanowić podstawę dla badaczy, którzy chcą eksperymentować z technikami NLP, opracowywać algorytmy i przyczyniać się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: obsługują interaktywne lekcje języka, pomagają w korekcie gramatycznej i umożliwiają ćwiczenie pisania.
- Eksploracja wiedzy: pomoc w przeglądaniu dużych zbiorów tekstów przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.
Ograniczenia
- Dane treningowe
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
- Kontekst i złożoność zadania
- Modele lepiej radzą sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
- Na skuteczność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
- Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
- Zgodność z prawdą
- Modele generują odpowiedzi na podstawie informacji, których nauczyły się z zestawów danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia faktów.
- Common Sense
- Modele opierają się na statystycznych wzorcach językowych. Mogą one nie być w stanie zastosować zdrowego rozsądku w określonych sytuacjach.
Względy etyczne i ryzyko
Rozwój dużych modeli językowych (LLM) budzi wiele wątpliwości etycznych. Podczas tworzenia otwartego modelu starannie rozważyliśmy te kwestie:
- Uprzedzenia i obiektywność
- Duże modele językowe trenowane na dużych zbiorach danych tekstowych z rzeczywistego świata mogą odzwierciedlać zakorzenione w materiałach szkoleniowych uprzedzenia społeczno-kulturowe. Modele te zostały dokładnie sprawdzone, a w tej karcie opisano wstępne przetwarzanie danych wejściowych i podano oceny końcowe.
- Nieprawdziwe informacje i niewłaściwe wykorzystanie
- Modele LLM mogą być wykorzystywane w niewłaściwy sposób do generowania tekstów, które są fałszywe, wprowadzają w błąd lub są szkodliwe.
- Wytyczne dotyczące odpowiedzialnego korzystania z modelu znajdziesz w zestawie narzędzi do odpowiedzialnego korzystania z generatywnej AI.
- Przejrzystość i odpowiedzialność:
- Ta karta modelu zawiera podsumowanie szczegółów dotyczących architektury modeli, ich możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami poprzez udostępnianie technologii LLM deweloperom i badaczom w całym ekosystemie AI.
Zidentyfikowane ryzyka i sposoby ich ograniczania:
- Utrwalanie odchyleń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz stosowanie technik usuwania odchyleń podczas trenowania i dostrajania modeli oraz w innych przypadkach użycia.
- Generowanie szkodliwych treści: niezbędne są mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących konkretnych produktów i przypadków użycia aplikacji.
- Nadużycia w złośliwych celach: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania dużych modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom oznaczanie przypadków nadużycia. Niedozwolone zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonego korzystania z modeli Gemma.
- Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały przefiltrowane w celu usunięcia informacji umożliwiających identyfikację osób. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
Zalety
W momencie premiery ta rodzina modeli zapewniała wysoką wydajność otwartych dużych modeli językowych zaprojektowanych od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości.