Strona modelu: FunctionGemma
Materiały i dokumentacja techniczna:
- Zestaw narzędzi odpowiedzialnej generatywnej AI
- FunctionGemma w Kaggle
- FunctionGemma w bazie modeli Vertex
Warunki korzystania: Warunki
Autorzy: Google DeepMind
Informacje o modelu
Podsumowanie i krótka definicja danych wejściowych i wyjściowych.
Opis
UWAGA: model FunctionGemma jest przeznaczony do dostrajania pod kątem konkretnego zadania wywoływania funkcji, w tym przypadków użycia obejmujących wiele tur.
FunctionGemma to lekki, otwarty model od Google, który stanowi podstawę do tworzenia własnych specjalistycznych modeli wywoływania funkcji. Model FunctionGemma nie jest przeznaczony do bezpośredniego prowadzenia dialogów. Został zaprojektowany tak, aby po dalszym dostrojeniu osiągać wysoką skuteczność, co jest typowe dla modeli tej wielkości. Model FunctionGemma został opracowany na podstawie modelu Gemma 3 270M i wykorzystuje te same badania i technologie, które posłużyły do stworzenia modeli Gemini. Został on wytrenowany specjalnie pod kątem wywoływania funkcji. Model ma taką samą architekturę jak Gemma 3, ale używa innego formatu czatu. Model ten dobrze sprawdza się w przypadku wywoływania funkcji tylko za pomocą tekstu. Dzięki niewielkim rozmiarom można go wdrażać w środowiskach o ograniczonych zasobach, takich jak laptopy, komputery stacjonarne czy własna infrastruktura chmurowa. Ułatwia to dostęp do najnowocześniejszych modeli AI i wspiera innowacje dla wszystkich. Podobnie jak podstawowy model Gemma 270M, ten model został zoptymalizowany pod kątem wszechstronności i wydajności na różnych urządzeniach w scenariuszach jednorazowych, ale aby osiągnąć najlepszą dokładność w określonych domenach, należy go dostroić do danych związanych z jednorazowymi lub wielorazowymi zadaniami. Aby pokazać, jak specjalizacja modelu z 270 milionami parametrów może zapewnić wysoką wydajność w przypadku konkretnych przepływów pracy agenta, wyróżniliśmy 2 przykłady zastosowań w aplikacji Galeria Google AI Edge.
Tiny Garden: model dostrojony do obsługi interaktywnej gry sterowanej głosem. Obsługuje logikę gry, aby zarządzać wirtualną działką, rozkłada polecenia takie jak „Posadź słoneczniki w górnym rzędzie” i „Podlej kwiaty na działkach 1 i 2” na funkcje specyficzne dla aplikacji (np. plant_seed, water_plots) i koordynuje cele. Pokazuje to, że model może obsługiwać niestandardowe mechanizmy aplikacji bez połączenia z serwerem.
Działania na urządzeniach mobilnych: aby umożliwić deweloperom tworzenie własnych agentów eksperckich, opublikowaliśmy zbiór danych i przepis na dostrajanie, aby zademonstrować dostrajanie modelu FunctionGemma. Tłumaczy dane wejściowe użytkownika (np. „Utwórz wydarzenie w kalendarzu: obiad”, „Włącz latarkę”) na wywołania funkcji, które uruchamiają narzędzia systemowe Androida. Ten interaktywny notatnik pokazuje, jak na podstawie podstawowego modelu FunctionGemma utworzyć od zera model dostrojony „Mobile Actions” do użytku w aplikacji Google AI Edge Gallery. Ten przypadek użycia pokazuje, że model może działać jako prywatny agent offline do wykonywania zadań na urządzeniu osobistym.
Dane wejściowe i wyjściowe
- Dane wejściowe:
- Ciąg tekstowy, np. pytanie, prompt lub dokument do podsumowania.
- Łączny kontekst wejściowy o wielkości 32 tys. tokenów
- Dane wyjściowe:
- Wygenerowany tekst w odpowiedzi na dane wejściowe, np. odpowiedź na pytanie lub podsumowanie dokumentu.
- Łączny kontekst wyjściowy do 32 tys. tokenów na żądanie, z odjęciem tokenów wejściowych żądania
Dane modelu
Dane użyte do trenowania modelu i sposób ich przetwarzania.
Zbiór danych treningowych
Modele te zostały wytrenowane na zbiorze danych tekstowych pochodzących z różnych źródeł. Model został wytrenowany na 6 bilionach tokenów. Granica wiedzy dla danych treningowych to sierpień 2024 r. Oto najważniejsze komponenty:
- Definicje narzędzi publicznych – popularne interfejsy API w internecie
- Interakcje związane z używaniem narzędzi – to połączenie promptów, wywołań funkcji, odpowiedzi funkcji i odpowiedzi modelu w języku naturalnym, które służą do podsumowywania odpowiedzi funkcji lub proszenia o wyjaśnienia, gdy prompt jest niejednoznaczny lub niekompletny.
Wstępne przetwarzanie danych
Oto główne metody czyszczenia i filtrowania danych zastosowane w przypadku danych treningowych:
- Filtrowanie CSAM: na różnych etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
- Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność wstępnie wytrenowanych modeli Gemma, zastosowano zautomatyzowane techniki filtrowania z zestawów treningowych określonych informacji osobistych i innych danych wrażliwych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.
Informacje o wdrożeniu
Szczegóły dotyczące wewnętrznych elementów modelu.
Sprzęt
Model Gemma został wytrenowany na sprzęcie Tensor Processing Unit (TPU) (TPUv4p, TPUv5p i TPUv5e). Trenowanie modeli wizualno-językowych (VLM) wymaga znacznej mocy obliczeniowej. Jednostki TPU, zaprojektowane specjalnie do operacji na macierzach, które są powszechne w uczeniu maszynowym, oferują w tej dziedzinie kilka zalet:
- Wydajność: jednostki TPU zostały zaprojektowane specjalnie do obsługi ogromnych obliczeń związanych z trenowaniem modeli VLM. Mogą znacznie przyspieszyć trenowanie w porównaniu z procesorami.
- Pamięć: procesory TPU mają zwykle dużą ilość pamięci o wysokiej przepustowości, co umożliwia obsługę dużych modeli i rozmiarów partii podczas trenowania. Może to poprawić jakość modelu.
- Skalowalność: pody TPU (duże klastry TPU) zapewniają skalowalne rozwiązanie do obsługi rosnącej złożoności dużych modeli podstawowych. Możesz rozdzielić trenowanie na wiele urządzeń TPU, aby przyspieszyć i usprawnić przetwarzanie.
- Opłacalność: w wielu przypadkach TPU mogą być bardziej opłacalnym rozwiązaniem do trenowania dużych modeli niż infrastruktura oparta na procesorach, zwłaszcza jeśli weźmiemy pod uwagę czas i zasoby zaoszczędzone dzięki szybszemu trenowaniu.
- Te korzyści są zgodne z zobowiązaniami Google do prowadzenia działalności w sposób zrównoważony.
Oprogramowanie
Trenowanie odbywało się przy użyciu JAX i ML Pathways.
JAX umożliwia badaczom korzystanie z najnowszej generacji sprzętu, w tym TPU, co pozwala szybciej i wydajniej trenować duże modele. ML
Pathways to najnowsza inicjatywa Google, której celem jest tworzenie systemów sztucznej inteligencji
zdolnych do uogólniania wyników w przypadku wielu zadań. Jest to szczególnie przydatne w przypadku modeli podstawowych, w tym dużych modeli językowych, takich jak te.
JAX i ML Pathways są używane razem w sposób opisany w artykule o modelach z rodziny Gemini: „model programowania „pojedynczego kontrolera” w JAX i Pathways umożliwia jednemu procesowi Pythona koordynowanie całego procesu trenowania, co znacznie upraszcza proces tworzenia”.
Ocena
Wskaźniki i wyniki oceny modelu.
Wyniki testu porównawczego
| Benchmark | n-shot | Funkcja Gemma 270m |
|---|---|---|
| BFCL Simple | 0-shot | 61,6 |
| BFCL Multiple | 0-shot | 63,5 |
| BFCL Parallel | 0-shot | 39 |
| BFCL Parallel Multiple | 0-shot | 29,5 |
| BFCL Live Simple | 0-shot | 36,2 |
| BFCL Live Multiple | 0-shot | 25,7 |
| BFCL Live Parallel | 0-shot | 22,9 |
| BFCL Live Parallel Multiple | 0-shot | 20,8 |
| Trafność BFCL | 0-shot | 61,1 |
| Nietrafność BFCL | 0-shot | 73,7 |
Wpływ na wydajność po dostrojeniu na zbiorze danych „Działania na urządzeniach mobilnych”
Aby wykazać wartość specjalizacji w przypadku małych modeli językowych, porównaliśmy podstawowy model FunctionGemma z modelem dostrojonym za pomocą przepisu „Działania na urządzeniach mobilnych”.
Dostrajanie znacznie poprawiło zdolność podstawowego modelu FunctionGemma do prawidłowego rozpoznawania i formatowania wywołań systemowych na urządzeniach mobilnych.
Model |
Wyniki oceny działań na urządzeniach mobilnych |
|---|---|
Model Base FunctionGemma |
58% |
Dostrajanie działań na urządzeniach mobilnych |
85% |
Wydajność na urządzeniu w przypadku dostosowanych zastosowań modelu Gemma 270M
Oceniliśmy dostosowane zastosowania na urządzeniu Samsung S25 Ultra, aby określić opóźnienie i zajętość pamięci.
- Kontekst: 512 tokenów wstępnych i 32 tokeny dekodowania.
- Sprzęt: procesor S25 Ultra z delegatem LiteRT XNNPACK i 4 wątkami.
Wydajność działań na urządzeniu mobilnym
Backend |
Schemat kwantyzacji |
Długość kontekstu |
Wypełnianie wstępne (tokeny na sekundę) |
Dekodowanie (tokeny na sekundę) |
Czas do pierwszego tokena (w sekundach) |
Rozmiar modelu (MB) |
Maksymalny rozmiar RSS pamięci (MB) |
|---|---|---|---|---|---|---|---|
Procesor |
dynamic_int8 |
1024 |
1718 |
125.9 |
0.3 |
288 |
551 |
Tiny Garden On Device Performance
Backend |
Schemat kwantyzacji |
Długość kontekstu |
Wypełnianie wstępne (tokeny na sekundę) |
Dekodowanie (tokeny na sekundę) |
Czas do pierwszego tokena (w sekundach) |
Rozmiar modelu (MB) |
Maksymalny rozmiar RSS pamięci (MB) |
|---|---|---|---|---|---|---|---|
Procesor |
dynamic_int8 |
1024 |
1743 |
125.7 |
0.3 |
288 |
549 |
Etyka i bezpieczeństwo
Podejście do oceny etyki i bezpieczeństwa oraz wyniki.
Podejście do oceny
Nasze metody oceny obejmują strukturalne oceny i wewnętrzne testy red-teamingowe odpowiednich zasad dotyczących treści. Testy typu red-teaming przeprowadziło kilka różnych zespołów, z których każdy miał inne cele i inne wskaźniki oceny przez ludzi. Te modele zostały ocenione w ramach różnych kategorii związanych z etyką i bezpieczeństwem, w tym:
- Bezpieczeństwo dzieci: ocena promptów tekstowych i obrazkowych pod kątem zgodności z zasadami dotyczącymi bezpieczeństwa dzieci, w tym wykorzystywania seksualnego dzieci.
- Bezpieczeństwo treści: ocena promptów tekstowych i obrazów do tekstu pod kątem zgodności z zasadami bezpieczeństwa, w tym dotyczącymi nękania, przemocy i drastycznych treści oraz szerzenia nienawiści.
- Szkody związane z reprezentacją: ocena promptów typu tekst – tekst i obraz – tekst pod kątem zgodności z zasadami bezpieczeństwa, w tym pod kątem uprzedzeń, stereotypów, szkodliwych skojarzeń i nieścisłości.
Wyniki oceny
We wszystkich obszarach testowania bezpieczeństwa odnotowaliśmy znaczne ulepszenia w kategoriach bezpieczeństwa dzieci, bezpieczeństwa treści i szkód związanych z reprezentacją w porównaniu z poprzednimi modelami Gemma. Wszystkie testy przeprowadzono bez filtrów bezpieczeństwa, aby ocenić możliwości i zachowania modelu. Model wykazał minimalną liczbę naruszeń zasad i znacznie lepsze wyniki niż poprzednie modele Gemma w zakresie nieuzasadnionych wniosków. Ograniczeniem naszych ocen było to, że obejmowały one tylko prompty w języku angielskim.
Wykorzystanie i ograniczenia
Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Ten model nie jest przeznaczony do użytku jako model bezpośredniego dialogu.
Otwarte duże modele językowe (LLM) mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych zastosowaniach, które twórcy modelu brali pod uwagę w ramach trenowania i rozwijania modelu.
- Tworzenie treści i komunikacja
- Generowanie tekstu: te modele mogą być używane do generowania kreatywnych formatów tekstu, takich jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
- Czatboty i konwersacyjna AI: umożliwiają tworzenie interfejsów konwersacyjnych do obsługi klienta, wirtualnych asystentów lub aplikacji interaktywnych.
- Podsumowywanie tekstu: generowanie zwięzłych podsumowań korpusu tekstowego, artykułów naukowych lub raportów.
- Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP): te modele mogą stanowić podstawę dla badaczy, którzy chcą eksperymentować z technikami NLP, opracowywać algorytmy i przyczyniać się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: obsługują interaktywne lekcje języka, pomagają w korekcie gramatycznej lub umożliwiają ćwiczenie pisania.
- Eksploracja wiedzy: pomoc w przeglądaniu dużych zbiorów tekstów przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.
Ograniczenia
- Dane treningowe
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
- Kontekst i złożoność zadania
- Modele lepiej radzą sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
- Na skuteczność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
- Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
- Zgodność z prawdą
- Modele generują odpowiedzi na podstawie informacji, których się nauczyły z zestawów danych treningowych, ale nie są bazami wiedzy. Mogą one generować nieprawidłowe lub nieaktualne stwierdzenia faktów.
- Common Sense
- Modele opierają się na statystycznych wzorcach językowych. Mogą one nie być w stanie zastosować zdrowego rozsądku w określonych sytuacjach.
Względy etyczne i ryzyko
Rozwój dużych modeli językowych (LLM) budzi wiele wątpliwości etycznych. Tworząc otwarty model, dokładnie rozważyliśmy te kwestie:
- Uprzedzenia i obiektywność
- Duże modele językowe trenowane na dużych zbiorach danych tekstowych z rzeczywistego świata mogą odzwierciedlać zakorzenione w materiałach szkoleniowych uprzedzenia społeczno-kulturowe. Modele te zostały dokładnie sprawdzone, a w tej karcie opisano wstępne przetwarzanie danych wejściowych i podano oceny końcowe.
- Nieprawdziwe informacje i niewłaściwe wykorzystanie
- Modele LLM mogą być wykorzystywane w niewłaściwy sposób do generowania tekstów, które są fałszywe, wprowadzają w błąd lub są szkodliwe.
- Wytyczne dotyczące odpowiedzialnego korzystania z modelu znajdziesz w zestawie narzędzi do odpowiedzialnego korzystania z generatywnej AI.
- Przejrzystość i odpowiedzialność:
- Ta karta modelu zawiera podsumowanie szczegółów dotyczących architektury modeli, ich możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie opracowany otwarty model daje możliwość dzielenia się innowacjami dzięki udostępnianiu technologii LLM programistom i badaczom w całym ekosystemie AI.
Zidentyfikowane zagrożenia i sposoby ich ograniczania:
- Utrwalanie odchyleń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez człowieka) oraz stosowanie technik usuwania odchyleń podczas trenowania i dostrajania modeli oraz w innych przypadkach użycia.
- Generowanie szkodliwych treści: niezbędne są mechanizmy i wskazówki dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących konkretnych produktów i przypadków użycia aplikacji.
- Nadużycia w złośliwych celach: ograniczenia techniczne oraz edukacja deweloperów i użytkowników końcowych mogą pomóc w ograniczeniu złośliwych zastosowań LLM. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom oznaczanie przypadków nadużycia. Niedozwolone zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonego korzystania z modeli Gemma.
- Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały przefiltrowane w celu usunięcia informacji umożliwiających identyfikację osób. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
Zalety
W momencie publikacji ta rodzina modeli zapewnia wysokowydajne implementacje otwartych dużych modeli językowych, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości.