Gemma 4 została udostępniona z możliwością wprowadzania tekstu, dźwięku i obrazów oraz długim oknem kontekstu (do 256 tys. tokenów). Więcej informacji

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Karta modelu Gemma 4

Baner Gemma 4

Hugging Face | GitHub | Blog o wprowadzeniu | Dokumentacja
Licencja: Apache 2.0 | Autorzy: Google DeepMind

Gemma to rodzina modeli otwartych stworzonych przez Google DeepMind. Modele Gemma 4 są multimodalne, obsługują dane wejściowe w formie tekstu i obrazu (modele E2B, E4B i 12B obsługują też dźwięk) i generują dane wyjściowe w formie tekstu. Ta wersja zawiera modele o otwartych wagach w wariantach wstępnie wytrenowanych i dostosowanych do instrukcji. Gemma 4 ma okno kontekstu o wielkości do 256 tys. tokenów i obsługuje ponad 140 języków.

Gemma 4 ma architekturę Dense i Mixture-of-Experts (MoE), dzięki czemu dobrze sprawdza się w takich zadaniach jak generowanie tekstu, kodowanie i wnioskowanie. Modele są dostępne w 5 różnych rozmiarach: E2B, E4B, 12B, 26B A4B i 31B. Dzięki różnym rozmiarom można je wdrażać w środowiskach obejmujących zarówno telefony z wyższej półki, jak i laptopy czy serwery, co demokratyzuje dostęp do najnowocześniejszej sztucznej inteligencji.

Gemma 4 wprowadza kluczowe możliwości i ulepszenia architektury:

Rozumowanie – wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.
Rozszerzona multimodalność – przetwarzanie tekstu, obrazów o różnych proporcjach i rozdzielczościach (wszystkie modele), filmów i dźwięku (funkcja dostępna natywnie w modelach E2B, E4B i 12B).
Różnorodne i wydajne architektury – oferuje warianty Dense i MoE (ang. Mixture-of-Experts) o różnych rozmiarach, które można wdrażać na dużą skalę.
Zoptymalizowane pod kątem urządzeń – mniejsze modele są specjalnie zaprojektowane pod kątem wydajnego wykonywania zadań lokalnie na laptopach i urządzeniach mobilnych.
Większe okno kontekstu – małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.
Ulepszone funkcje kodowania i agentowe – osiąga znaczną poprawę w testach porównawczych kodowania oraz natywną obsługę wywoływania funkcji, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.
Natywna obsługa promptów systemowych – Gemma 4 wprowadza natywną obsługę roli system, co umożliwia prowadzenie bardziej uporządkowanych i łatwiejszych do kontrolowania rozmów.

Omówienie modeli

Modele Gemma 4 zostały zaprojektowane tak, aby zapewniać najwyższą wydajność w każdym rozmiarze, w przypadku różnych scenariuszy wdrażania – od urządzeń mobilnych i urządzeń brzegowych (E2B, E4B) po konsumenckie procesory graficzne i stacje robocze (12B, 26B A4B, 31B). Dobrze sprawdzają się w przypadku rozumowania, procesów agentowych, kodowania i rozpoznawania multimodalnego.

Modele wykorzystują hybrydowy mechanizm uwagi, który przeplata lokalną uwagę w przesuwanym oknie z pełną uwagą globalną, dzięki czemu ostatnia warstwa jest zawsze globalna. Ta hybrydowa architektura zapewnia szybkość przetwarzania i niewielkie zużycie pamięci lekkiego modelu bez utraty głębokiej świadomości wymaganej w przypadku złożonych zadań z długim kontekstem. Aby zoptymalizować pamięć w przypadku długich kontekstów, warstwy globalne mają ujednolicone klucze i wartości oraz stosują proporcjonalne kodowanie pozycyjne RoPE (p-RoPE).

Modele gęste

Właściwość	E2B	E4B	12B Unified	31B Dense
Łączna liczba parametrów	2,3 mld parametrów (5,1 mld z osadzaniem)	4,5 mld parametrów (8 mld z osadzaniem)	11,95 mld	30,7 mld
Warstwy	35	42	48	60
Okno przesuwne	512 tokenów	512 tokenów	1024 tokeny	1024 tokeny
Długość kontekstu	128 tysięcy tokenów	128 tysięcy tokenów	256 tysięcy tokenów	256 tysięcy tokenów
Rozmiar słownika	262 tys.	262 tys.	262 tys.	262 tys.
Obsługiwane rodzaje	Tekst, obraz, dźwięk	Tekst, obraz, dźwięk	Tekst, obraz, dźwięk	Tekst, obraz
Parametry kodera wizyjnego	~150 mln	~150 mln	-	~550 mln
Parametry kodera audio	~300 mln	~300 mln	-	Brak dźwięku

Litera „E” w nazwach E2B i E4B oznacza „skuteczne” parametry. Mniejsze modele wykorzystują osadzanie na poziomie warstwy (PLE), aby zmaksymalizować efektywność parametrów w przypadku wdrożeń na urządzeniach. Zamiast dodawać do modelu więcej warstw lub parametrów, PLE przypisuje każdej warstwie dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego efektywna liczba parametrów jest znacznie mniejsza niż łączna.

„Ujednolicona” w nazwie Gemma 4 12B Ujednolicona odnosi się do architektury bez kodera. Inne modele Gemma 4 używają dedykowanych enkoderów do przetwarzania danych multimodalnych przed przekazaniem ich do modelu LLM. Gemma 4 12B całkowicie eliminuje te kodery, rzutując surowe fragmenty obrazu i formy falowe dźwięku bezpośrednio w przestrzeń osadzania LLM za pomocą lekkich warstw liniowych. To ujednolicone podejście oznacza, że wszystkie rodzaje danych są przesyłane bezpośrednio do jednego transformera z samym dekoderem, co zmniejsza opóźnienia w przypadku danych multimodalnych i umożliwia dostrajanie całego modelu w jednym przebiegu.

Model Mixture-of-Experts (MoE)

Właściwość	26B A4B MoE
Łączna liczba parametrów	25,2 MLD
Aktywne parametry	3,8 mld
Warstwy	30
Okno przesuwne	1024 tokeny
Długość kontekstu	256 tysięcy tokenów
Rozmiar słownika	262 tys.
Liczba ekspertów	8 aktywnych / 128 wszystkich i 1 udostępniony
Obsługiwane rodzaje	Tekst, obraz
Parametry kodera wizyjnego	~550 mln

Litera „A” w nazwie 26B A4B oznacza „aktywne parametry” w przeciwieństwie do łącznej liczby parametrów, które zawiera model. Model typu Mixture-of-Experts działa znacznie szybciej, niż sugeruje jego łączna liczba 26 mld parametrów, ponieważ podczas wnioskowania aktywuje tylko podzbiór 4 mld parametrów. Dzięki temu jest to doskonały wybór do szybkiego wnioskowania w porównaniu z gęstym modelem 31B, ponieważ działa prawie tak szybko jak model z 4 miliardami parametrów.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i rodzajów danych, aby uwzględnić różne aspekty generowania tekstu. Wyniki oceny oznaczone w tabeli dotyczą modeli dostosowanych do instrukcji.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Unified	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (bez myślenia)
MMLU Pro	85,2%	82,6%	77,2%	69,4%	60,0%	67,6%
AIME 2026 no tools	89,2%	88,3%	77,5%	42,5%	37,5%	20,8%
LiveCodeBench w wersji 6	80,0%	77,1%	72,0%	52,0%	44,0%	29,1%
ELO Codeforces	2150	1718	1659	940	633	110
GPQA Diamond	84,3%	82,3%	78,8%	58,6%	43,4%	42,4%
Tau2 (średnia z 3 wartości)	76,9%	68,2%	69,0%	42,2%	24,5%	16,2%
HLE no tools	19,5%	8,7%	5,2%	-	-	-
HLE z wyszukiwaniem	26,5%	17,2%	-	-	-	-
BigBench Extra Hard	74,4%	64,8%	53,0%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	83,4%	76,6%	67,4%	70,7%
Widzenie
MMMU Pro	76,9%	73,8%	69,1%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (średnia odległość edycji, im mniejsza, tym lepiej)	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	85,6%	82,4%	79,7%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	48,7%	28,7%	23,5%	-
Dźwięk
CoVoST	-	-	38,5^*	35,54	33,47	-
FLEURS (im niższa wartość, tym lepiej)	-	-	0,069^*	0,08	0,09	-
Długi kontekst
MRCR v2 8 igieł 128 tys. (średnio)	66,4%	44,1%	43,4%	25,4%	19,1%	13,5%

^* Z wyjątkiem języka chińskiego.

Podstawowe możliwości

Modele Gemma 4 obsługują szeroki zakres zadań związanych z tekstem, obrazem i dźwiękiem. Najważniejsze funkcje:

Myślenie – wbudowany tryb rozumowania, który umożliwia modelowi krok po kroku przemyśleć odpowiedź przed jej udzieleniem.
Długi kontekst – okna kontekstu o wielkości do 128 tys. tokenów (E2B/E4B) i 256 tys. tokenów (12B/26B A4B/31B).
Rozumienie obrazów – wykrywanie obiektów, analizowanie dokumentów i plików PDF, rozumienie ekranu i interfejsu, rozumienie wykresów, optyczne rozpoznawanie znaków (w tym wielojęzyczne), rozpoznawanie pisma odręcznego i wskazywanie. Obrazy mogą być przetwarzane w różnych formatach i rozdzielczościach.
Video Understanding – analiza filmu przez przetwarzanie sekwencji klatek.
Przeplatane dane wejściowe multimodalne – swobodnie mieszaj tekst i obrazy w dowolnej kolejności w ramach jednego prompta.
Wywoływanie funkcji – natywna obsługa strukturalnego korzystania z narzędzi, która umożliwia tworzenie przepływów pracy agenta.
Kodowanie – generowanie, uzupełnianie i korygowanie kodu.
Wielojęzyczność – gotowa obsługa ponad 35 języków, wytrenowana na ponad 140 językach.
Audio (tylko E2B, E4B i 12B Unified) – automatyczne rozpoznawanie mowy (ASR) i tłumaczenie mowy na tekst w wielu językach.

Sprawdzone metody

Aby uzyskać najlepsze wyniki, używaj tych konfiguracji i sprawdzonych metod:

1. Parametry próbkowania

We wszystkich przypadkach użycia stosuj tę samą standardową konfigurację próbkowania:

temperature=1.0
top_p=0.95
top_k=64

2. Konfiguracja trybu myślenia

W porównaniu z Gemma 3 modele te używają standardowych ról system, assistant i user. Aby prawidłowo zarządzać procesem myślowym, użyj tych tokenów sterujących:

Wywoływanie myślenia: myślenie jest włączane przez dodanie tokena <|think|> na początku prompta systemowego. Aby wyłączyć myślenie, usuń token.
Standardowe generowanie: gdy myślenie jest włączone, model podaje wewnętrzne rozumowanie, a następnie ostateczną odpowiedź w tej strukturze:<|channel>thought\n[Wewnętrzne rozumowanie]<channel|>
Wyłączone zachowanie modelu Thinking: w przypadku wszystkich modeli z wyjątkiem wariantów E2B i E4B, jeśli funkcja Thinking jest wyłączona, model nadal będzie generować tagi, ale z pustym blokiem myśli: <|channel>thought\n<channel|>[Final answer]

Pamiętaj, że wiele bibliotek, takich jak Transformers i llama.cpp, obsługuje złożoność szablonu czatu.

3. Rozmowy wieloetapowe

Brak treści związanych z procesem myślowym w historii: w rozmowach wieloetapowych historyczne dane wyjściowe modelu powinny zawierać tylko ostateczną odpowiedź. Przemyślenia z poprzednich tur modelu nie mogą być dodawane przed rozpoczęciem kolejnej tury użytkownika.

4. Kolejność modalności

Aby uzyskać optymalną skuteczność w przypadku danych wejściowych multimodalnych, umieść:

Treść obrazu przed tekstem w prompcie.
treści audio po tekście w prompcie;

5. Zmienna rozdzielczość obrazu

Oprócz zmiennych proporcji obrazu model Gemma 4 obsługuje zmienną rozdzielczość obrazu dzięki konfigurowalnemu budżetowi tokenów wizualnych, który określa, ile tokenów jest używanych do reprezentowania obrazu. Wyższy budżet tokenów zachowuje więcej szczegółów wizualnych kosztem dodatkowej mocy obliczeniowej, a niższy budżet umożliwia szybsze wnioskowanie w przypadku zadań, które nie wymagają szczegółowego zrozumienia.

Obsługiwane budżety tokenów to: 70, 140, 280, 560 i 1120.
- W przypadku klasyfikacji, tworzenia napisów lub analizy filmów, gdzie szybsze wnioskowanie i przetwarzanie wielu klatek są ważniejsze niż szczegółowość, używaj niższych budżetów.
- W przypadku zadań takich jak OCR, analizowanie dokumentów czy odczytywanie małego tekstu używaj wyższych budżetów.

6. Audio

W przypadku przetwarzania dźwięku użyj tych struktur promptów:

Rozpoznawanie mowy (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Automatyczne tłumaczenie mowy (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Długość dźwięku i filmu

Wszystkie modele obsługują dane wejściowe w postaci obrazów i mogą przetwarzać filmy jako klatki, natomiast modele E2B, E4B i 12B obsługują też dane wejściowe audio. Maksymalna długość dźwięku to 30 sekund. Film może trwać maksymalnie 60 sekund, przy założeniu, że obrazy są przetwarzane z częstotliwością 1 klatki na sekundę.

Dane modelu

dane użyte do trenowania modelu i sposób ich przetwarzania;

Zbiór danych do trenowania

Nasz zbiór danych do wstępnego trenowania to duża, zróżnicowana kolekcja danych obejmująca szeroki zakres domen i rodzajów danych, w tym dokumenty internetowe, kod, obrazy i dźwięk. Data odcięcia to styczeń 2025 r. Oto kluczowe komponenty:

Dokumenty internetowe: różnorodny zbiór tekstów internetowych zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 140 językach.
Kod: udostępnianie modelu kodu pomaga mu nauczyć się składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu i rozumienia pytań związanych z kodem.
Matematyka: trenowanie na tekstach matematycznych pomaga modelowi uczyć się logicznego rozumowania, reprezentacji symbolicznej i odpowiadania na zapytania matematyczne.
Obrazy: szeroki zakres obrazów umożliwia modelowi wykonywanie zadań związanych z analizą obrazów i wyodrębnianiem danych wizualnych.

Połączenie tych różnorodnych źródeł danych ma kluczowe znaczenie dla trenowania zaawansowanego modelu multimodalnego, który może obsługiwać wiele różnych zadań i formatów danych.

Wstępne przetwarzanie danych

Oto główne metody czyszczenia i filtrowania danych zastosowane w przypadku danych treningowych:

Filtrowanie CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność wstępnie wytrenowanych modeli Gemma, zastosowano automatyczne techniki filtrowania z zestawów treningowych określonych danych osobowych i innych danych wrażliwych.
Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Etyka i bezpieczeństwo

Modele open source stają się kluczowym elementem infrastruktury przedsiębiorstw, dlatego pochodzenie i bezpieczeństwo mają ogromne znaczenie. Model Gemma 4 został opracowany przez Google DeepMind i przechodzi te same rygorystyczne oceny bezpieczeństwa co nasze zastrzeżone modele Gemini.

Podejście do oceny

Modele Gemma 4 zostały opracowane we współpracy z wewnętrznymi zespołami ds. bezpieczeństwa i odpowiedzialnej AI. Przeprowadziliśmy szereg ocen automatycznych i wykonywanych przez weryfikatorów, aby zwiększyć bezpieczeństwo modelu. Te oceny są zgodne z zasadami Google dotyczącymi AI oraz zasadami bezpieczeństwa, które mają zapobiegać generowaniu przez nasze modele generatywnej AI szkodliwych treści, w tym:

Treści związane z materiałami przedstawiającymi wykorzystywanie seksualne dzieci i wykorzystywaniem
treści niebezpieczne (np. promujące samobójstwo lub zawierające instrukcje dotyczące działań, które mogą wyrządzić krzywdę w świecie rzeczywistym);
Treści o charakterze jednoznacznie seksualnym
szerzenie nienawiści (np. dehumanizowanie członków grup chronionych);
nękanie (np. zachęcanie do przemocy wobec innych osób);

Wyniki oceny

We wszystkich obszarach testów bezpieczeństwa odnotowaliśmy znaczne ulepszenia we wszystkich kategoriach bezpieczeństwa treści w porównaniu z poprzednimi modelami Gemmy. Ogólnie modele Gemma 4 znacznie przewyższają modele Gemma 3 i 3n pod względem poprawy bezpieczeństwa, a jednocześnie utrzymują niski poziom nieuzasadnionych odmów. Wszystkie testy przeprowadzono bez filtrów bezpieczeństwa, aby ocenić możliwości i zachowania modelu. W przypadku obu rodzajów zadań (tekst na podstawie tekstu i obraz – tekst) oraz wszystkich rozmiarów modelu wygenerował on minimalną liczbę naruszeń zasad i wykazał znaczną poprawę w porównaniu z poprzednimi modelami Gemma.

Użytkowanie i ograniczenia

Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Modele multimodalne (zdolne do przetwarzania obrazu, języka lub dźwięku) mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.

Tworzenie treści i komunikacja
- Generowanie tekstu: te modele mogą służyć do generowania kreatywnych formatów tekstu, takich jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
- Czatboty i konwersacyjna AI: zasilają interfejsy konwersacyjne na potrzeby obsługi klienta, wirtualnych asystentów lub interaktywnych aplikacji.
- Podsumowywanie tekstu: generowanie zwięzłych podsumowań korpusu tekstowego, artykułów naukowych lub raportów.
- Wyodrębnianie danych z obrazów: te modele mogą służyć do wyodrębniania, interpretowania i podsumowywania danych wizualnych na potrzeby komunikacji tekstowej.
- Przetwarzanie dźwięku i interakcje z nim: modele E2B, E4B i 12B mogą analizować i interpretować dane wejściowe audio, umożliwiając interakcje i transkrypcje głosowe.
Badania i edukacja
- Badania nad przetwarzaniem języka naturalnego (NLP) i modelami VLM: te modele mogą stanowić podstawę dla badaczy do eksperymentowania z technikami VLM i NLP, opracowywania algorytmów i przyczyniania się do rozwoju tej dziedziny.
- Narzędzia do nauki języków: wspierają interaktywną naukę języków, pomagają w korekcie gramatycznej i umożliwiają ćwiczenie pisania.
- Eksplorowanie wiedzy: pomaganie badaczom w przeglądaniu dużych ilości tekstu przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

Dane treningowe
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
Kontekst i złożoność zadania
- Modele dobrze radzą sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
- Na skuteczność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury skomplikowany. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
Dokładność merytoryczna
- Modele generują odpowiedzi na podstawie informacji, których nauczyły się z zestawów danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia faktów.
Common Sense
- Modele opierają się na statystycznych wzorcach językowych. W niektórych sytuacjach mogą nie być w stanie zastosować zdrowego rozsądku.

Względy etyczne i ryzyko

Rozwój modeli wizualno-językowych (VLM) budzi wiele wątpliwości etycznych. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

Uprzedzenia i obiektywność
- Modele VLM trenowane na dużych zbiorach danych tekstowych i obrazowych z prawdziwego świata mogą odzwierciedlać uprzedzenia społeczno-kulturowe zawarte w materiałach szkoleniowych. Modele Gemma 4 zostały poddane dokładnej analizie, wstępnemu przetwarzaniu danych wejściowych i ocenom po trenowaniu, o których mowa na tej karcie, aby zmniejszyć ryzyko wystąpienia tych odchyleń.
Nieprawdziwe informacje i niewłaściwe wykorzystanie
- Modele VLM mogą być wykorzystywane w niewłaściwy sposób do generowania tekstów, które są fałszywe, wprowadzają w błąd lub są szkodliwe.
- Wytyczne dotyczące odpowiedzialnego korzystania z modelu znajdziesz w zestawie narzędzi do odpowiedzialnego korzystania z generatywnej AI.
Przejrzystość i odpowiedzialność
- Ta karta modelu zawiera podsumowanie szczegółów dotyczących architektury modeli, ich możliwości, ograniczeń i procesów oceny.
- Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami poprzez udostępnianie technologii VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i działania ograniczające ryzyko:

Generowanie szkodliwych treści: niezbędne są mechanizmy i wytyczne dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących konkretnych produktów i przypadków użycia aplikacji.
Nadużywanie w złośliwych celach: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania dużych modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie nadużyć.
Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały odfiltrowane w celu usunięcia określonych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz badanie technik usuwania uprzedzeń podczas trenowania i dostrajania modelu oraz w innych przypadkach użycia.

Zalety

W momencie wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność implementacji otwartego modelu wizualno-językowego, który został zaprojektowany od podstaw z myślą o odpowiedzialnej AI w porównaniu z modelami o podobnej wielkości.