Karta modelu Gemma 4

Baner Gemma 4

Hugging Face | GitHub | Blog o wprowadzeniu | Dokumentacja
Licencja: Apache 2.0 | Autorzy: Google DeepMind

Gemma to rodzina otwartych modeli stworzonych przez Google DeepMind. Modele Gemma 4 są multimodalne, obsługują tekst i obrazy (w przypadku małych modeli także dźwięk) i generują tekstowe dane wyjściowe. Ta wersja zawiera modele z otwartymi wagami w wersjach wstępnie wytrenowanych i dostosowanych do instrukcji. Gemma 4 ma okno kontekstu o wielkości do 256 tys. tokenów i obsługuje ponad 140 języków.

Gemma 4 ma architekturę Dense i Mixture-of-Experts (MoE), dzięki czemu dobrze sprawdza się w takich zadaniach jak generowanie tekstu, pisanie kodu i wyciąganie wniosków. Modele są dostępne w 4 różnych rozmiarach: E2B, E4B, 26B A4B31B. Dzięki różnym rozmiarom można je wdrażać w środowiskach obejmujących zarówno telefony z wyższej półki, jak i laptopy oraz serwery, co demokratyzuje dostęp do najnowocześniejszej sztucznej inteligencji.

Gemma 4 wprowadza kluczowe ulepszenia funkcji i architektury:

  • Uzasadnienie – wszystkie modele z tej rodziny zostały zaprojektowane jako bardzo zaawansowane narzędzia do rozumowania z konfigurowalnymi trybami myślenia.

  • Rozszerzone funkcje multimodalne – przetwarzanie tekstu, obrazów o różnych współczynnikach proporcji i rozdzielczości (wszystkie modele), filmów i dźwięku (funkcja dostępna natywnie w modelach E2B i E4B).

  • Różnorodne i wydajne architektury – oferuje warianty Dense i MoE (ang. Mixture-of-Experts) o różnych rozmiarach, które można wdrażać na dużą skalę.

  • Zoptymalizowane pod kątem urządzeń – mniejsze modele są specjalnie zaprojektowane pod kątem wydajnego wykonywania zadań lokalnie na laptopach i urządzeniach mobilnych.

  • Większe okno kontekstu – małe modele mają okno kontekstu o wielkości 128 tys. tokenów, a średnie – 256 tys. tokenów.

  • Ulepszone możliwości kodowania i funkcje agentowe – osiąga znaczną poprawę w testach porównawczych kodowania oraz obsługuje wywoływanie funkcji natywnych, co umożliwia tworzenie wysoce wydajnych autonomicznych agentów.

  • Natywna obsługa promptów systemowych – Gemma 4 wprowadza natywną obsługę roli system, co umożliwia prowadzenie bardziej uporządkowanych i łatwiejszych do kontrolowania rozmów.

Omówienie modeli

Modele Gemma 4 zostały zaprojektowane tak, aby zapewniać najwyższą wydajność w każdym rozmiarze, w przypadku scenariuszy wdrażania od urządzeń mobilnych i urządzeń brzegowych (E2B, E4B) po konsumenckie procesory graficzne i stacje robocze (26B A4B, 31B). Dobrze sprawdzają się w przypadku rozumowania, procesów agentowych, kodowania i rozumienia multimodalnego.

Modele wykorzystują hybrydowy mechanizm uwagi, który przeplata lokalną uwagę w przesuwanym oknie z pełną uwagą globalną, dzięki czemu ostatnia warstwa jest zawsze globalna. Ta hybrydowa architektura zapewnia szybkość przetwarzania i niewielkie wykorzystanie pamięci lekkiego modelu bez utraty głębokiej świadomości wymaganej w przypadku złożonych zadań z długim kontekstem. Aby zoptymalizować pamięć w przypadku długich kontekstów, warstwy globalne mają ujednolicone klucze i wartości oraz stosują proporcjonalne kodowanie pozycyjne RoPE (p-RoPE).

Modele gęste

Właściwość E2B E4B 31B Dense
Łączna liczba parametrów 2,3 mld parametrów (5,1 mld z osadzaniem) 4,5 mld skutecznych parametrów (8 mld z osadzaniem) 30,7 mld
Warstwy 35 42 60
Okno przesuwne 512 tokenów 512 tokenów 1024 tokeny
Długość kontekstu 128 tys. tokenów 128 tys. tokenów 256 tys. tokenów
Rozmiar słownika 262 tys. 262 tys. 262 tys.
Obsługiwane rodzaje Tekst, obraz, dźwięk Tekst, obraz, dźwięk Tekst, obraz
Parametry kodera wizyjnego ~150 mln ~150 mln ~550 mln
Parametry kodera audio ~300 mln ~300 mln Brak dźwięku

Litera „E” w nazwach E2B i E4B oznacza „skuteczne” parametry. Mniejsze modele wykorzystują osadzanie na poziomie warstwy (Per-Layer Embeddings, PLE), aby zmaksymalizować efektywność parametrów w przypadku wdrożeń na urządzeniach. Zamiast dodawać do modelu więcej warstw lub parametrów, PLE przypisuje każdej warstwie dekodera własne małe osadzanie dla każdego tokena. Te tabele osadzania są duże, ale służą tylko do szybkiego wyszukiwania, dlatego efektywna liczba parametrów jest znacznie mniejsza niż łączna.

Model typu Mixture-of-Experts (MoE)

Właściwość 26B A4B MoE
Łączna liczba parametrów 25,2 MLD
Aktywne parametry 3,8 mld
Warstwy 30
Okno przesuwne 1024 tokeny
Długość kontekstu 256 tys. tokenów
Rozmiar słownika 262 tys.
Liczba ekspertów 8 aktywnych / 128 wszystkich i 1 udostępniony
Obsługiwane rodzaje Tekst, obraz
Parametry kodera wizyjnego ~550 mln

Litera „A” w nazwie 26B A4B oznacza „aktywne parametry” w przeciwieństwie do łącznej liczby parametrów, które zawiera model. Podczas wnioskowania model MoE aktywuje tylko podzbiór 4B parametrów, dzięki czemu działa znacznie szybciej, niż sugeruje jego łączna liczba 26B. Dzięki temu jest to doskonały wybór do szybkiego wnioskowania w porównaniu z gęstym modelem 31B, ponieważ działa prawie tak szybko jak model z 4 miliardami parametrów.

Wyniki testu porównawczego

Modele te zostały ocenione na podstawie dużej kolekcji różnych zbiorów danych i rodzajów danych, aby uwzględnić różne aspekty generowania tekstu. Wyniki oceny oznaczone w tabeli dotyczą modeli dostosowanych do instrukcji.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (bez myślenia)
MMLU Pro 85,2% 82,6% 69,4% 60,0% 67,6%
AIME 2026 no tools 89,2% 88,3% 42,5% 37,5% 20,8%
LiveCodeBench v6 80,0% 77,1% 52,0% 44,0% 29,1%
ELO Codeforces 2150 1718 940 633 110
GPQA Diamond 84,3% 82,3% 58,6% 43,4% 42,4%
Tau2 (średnia z 3 wartości) 76,9% 68,2% 42,2% 24,5% 16,2%
HLE no tools 19,5% 8,7% - - -
HLE z wyszukiwaniem 26,5% 17,2% - - -
BigBench Extra Hard 74,4% 64,8% 33,1% 21,9% 19,3%
MMMLU 88,4% 86,3% 76,6% 67,4% 70,7%
Widzenie
MMMU Pro 76,9% 73,8% 52,6% 44,2% 49,7%
OmniDocBench 1.5 (średnia odległość edycji, im mniejsza, tym lepiej) 0.131 0.149 0.181 0.290 0.365
MATH-Vision 85,6% 82,4% 59,5% 52,4% 46,0%
MedXPertQA MM 61,3% 58,1% 28,7% 23,5% -
Dźwięk
CoVoST - - 35,54 33,47 -
FLEURS (im niższa wartość, tym lepiej) - - 0,08 0,09 -
Długi kontekst
MRCR v2 8 igieł 128 tys. (średnia) 66,4% 44,1% 25,4% 19,1% 13,5%

Podstawowe funkcje

Modele Gemma 4 obsługują szeroki zakres zadań związanych z tekstem, obrazem i dźwiękiem. Najważniejsze funkcje:

  • Myślenie – wbudowany tryb rozumowania, który umożliwia modelowi krok po kroku przemyśleć odpowiedź przed jej udzieleniem.
  • Długi kontekst – okna kontekstu o wielkości do 128 tys. tokenów (E2B/E4B) i 256 tys. tokenów (26B A4B/31B).
  • Rozpoznawanie obrazów – wykrywanie obiektów, analizowanie dokumentów i plików PDF, rozumienie ekranów i interfejsów, interpretowanie wykresów, optyczne rozpoznawanie znaków (OCR, w tym wielojęzyczne), rozpoznawanie pisma odręcznego i wskazywanie. Obrazy mogą być przetwarzane w różnych formatach obrazu i rozdzielczościach.
  • Video Understanding – analiza filmu przez przetwarzanie sekwencji klatek.
  • Przeplatane dane wejściowe multimodalne – swobodne mieszanie tekstu i obrazów w dowolnej kolejności w ramach jednego prompta.
  • Wywoływanie funkcji – natywna obsługa strukturalnego korzystania z narzędzi, która umożliwia przepływy pracy oparte na agentach.
  • Kodowanie – generowanie, uzupełnianie i korygowanie kodu.
  • Wielojęzyczność – gotowa obsługa ponad 35 języków, wytrenowana na ponad 140 językach.
  • Audio (tylko E2B i E4B) – automatyczne rozpoznawanie mowy (ASR) i tłumaczenie mowy na tekst w wielu językach.

Pierwsze kroki

Wszystkie modele Gemma 4 możesz używać w najnowszej wersji Transformers. Aby rozpocząć, zainstaluj w środowisku niezbędne zależności:

pip install -U transformers torch accelerate

Po zainstalowaniu wszystkich komponentów możesz wczytać model za pomocą poniższego kodu:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Po załadowaniu modelu możesz zacząć generować dane wyjściowe:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Aby włączyć rozumowanie, ustaw enable_thinking=True, a funkcja parse_response zajmie się analizowaniem danych wyjściowych.

Sprawdzone metody

Aby zapewnić najlepszą skuteczność, używaj tych konfiguracji i sprawdzonych metod:

1. Parametry próbkowania

We wszystkich przypadkach użycia stosuj tę samą standardową konfigurację próbkowania:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Konfiguracja trybu myślenia

W porównaniu z Gemma 3 modele te używają standardowych ról system, assistantuser. Aby prawidłowo zarządzać procesem myślowym, użyj tych tokenów sterujących:

  • Włączanie myślenia: myślenie jest włączane przez dodanie tokena <|think|> na początku prompta systemowego. Aby wyłączyć myślenie, usuń token.
  • Generowanie standardowe: gdy myślenie jest włączone, model podaje wewnętrzne rozumowanie, a następnie ostateczną odpowiedź w tej strukturze:<|channel>thought\n[Wewnętrzne uzasadnienie]<channel|>
  • Wyłączone zachowanie związane z myśleniem: w przypadku wszystkich modeli z wyjątkiem wariantów E2B i E4B, jeśli myślenie jest wyłączone, model nadal będzie generować tagi, ale z pustym blokiem myśli: <|channel>thought\n<channel|>[Odpowiedź końcowa]

Pamiętaj, że wiele bibliotek, takich jak Transformers i llama.cpp, obsługuje złożoność szablonu czatu.

3. Rozmowy wieloetapowe

  • Brak treści związanych z procesem myślowym w historii: w przypadku rozmów wieloetapowych historyczne dane wyjściowe modelu powinny zawierać tylko ostateczną odpowiedź. Przemyślenia z poprzednich tur modelu nie mogą być dodawane przed rozpoczęciem kolejnej tury użytkownika.

4. Kolejność modalności

  • Aby uzyskać optymalną skuteczność w przypadku danych wejściowych multimodalnych, umieść obraz lub dźwięk przed tekstem w prompcie.

5. Zmienna rozdzielczość obrazu

Oprócz zmiennych proporcji obrazu model Gemma 4 obsługuje zmienną rozdzielczość obrazu dzięki konfigurowalnemu budżetowi tokenów wizualnych, który określa, ile tokenów jest używanych do reprezentowania obrazu. Wyższy budżet tokenów zachowuje więcej szczegółów wizualnych kosztem dodatkowej mocy obliczeniowej, a niższy budżet umożliwia szybsze wnioskowanie w przypadku zadań, które nie wymagają szczegółowego zrozumienia.

  • Obsługiwane budżety tokenów to: 70, 140, 280, 560 i 1120.
    • W przypadku klasyfikacji, tworzenia napisów lub analizy filmów, gdzie szybsze wnioskowanie i przetwarzanie wielu klatek są ważniejsze niż szczegółowość, używaj niższych budżetów.
    • W przypadku zadań takich jak OCR, analizowanie dokumentów czy odczytywanie małego tekstu używaj większych budżetów.

6. Audio

Do przetwarzania dźwięku używaj tych struktur promptów:

  • Rozpoznawanie mowy (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Automatyczne tłumaczenie mowy (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Długość dźwięku i filmu

Wszystkie modele obsługują dane wejściowe w postaci obrazów i mogą przetwarzać filmy jako klatki, a modele E2B i E4B obsługują też dane wejściowe audio. Dźwięk może trwać maksymalnie 30 sekund. Film może trwać maksymalnie 60 sekund, przy założeniu, że obrazy są przetwarzane z częstotliwością 1 klatki na sekundę.

Dane modelu

Dane użyte do trenowania modelu i sposób ich przetwarzania.

Zbiór danych do trenowania

Nasz zbiór danych do wstępnego trenowania to duża, zróżnicowana kolekcja danych obejmująca szeroki zakres dziedzin i rodzajów, w tym dokumenty internetowe, kod, obrazy i dźwięk. Data odcięcia to styczeń 2025 r. Oto kluczowe komponenty:

  • Dokumenty internetowe: różnorodna kolekcja tekstów internetowych zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 140 językach.
  • Kod: udostępnianie modelu kodu pomaga mu nauczyć się składni i wzorców języków programowania, co zwiększa jego zdolność do generowania kodu i rozumienia pytań związanych z kodem.
  • Matematyka: trenowanie na tekstach matematycznych pomaga modelowi uczyć się logicznego rozumowania, reprezentacji symbolicznej i odpowiadania na zapytania matematyczne.
  • Obrazy: szeroki zakres obrazów umożliwia modelowi wykonywanie zadań związanych z analizą obrazów i wyodrębnianiem danych wizualnych.

Połączenie tych różnorodnych źródeł danych ma kluczowe znaczenie dla trenowania zaawansowanego modelu multimodalnego, który może obsługiwać wiele różnych zadań i formatów danych.

Przetwarzanie wstępne danych

Oto główne metody oczyszczania i filtrowania danych zastosowane w przypadku danych treningowych:

  • Filtrowanie CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby wykluczyć szkodliwe i nielegalne treści.
  • Filtrowanie danych wrażliwych: aby zapewnić bezpieczeństwo i niezawodność wstępnie wytrenowanych modeli Gemma, zastosowano automatyczne techniki filtrowania z zestawów treningowych określonych danych osobowych i innych danych wrażliwych.
  • Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Etyka i bezpieczeństwo

W miarę jak otwarte modele stają się kluczowym elementem infrastruktury przedsiębiorstw, pochodzenie i bezpieczeństwo mają ogromne znaczenie. Model Gemma 4 został opracowany przez Google DeepMind i podlega tym samym rygorystycznym ocenom bezpieczeństwa co nasze zastrzeżone modele Gemini.

Podejście do oceny

Modele Gemma 4 zostały opracowane we współpracy z wewnętrznymi zespołami ds. bezpieczeństwa i odpowiedzialnej AI. Przeprowadziliśmy szereg ocen automatycznych i wykonywanych przez weryfikatorów, aby zwiększyć bezpieczeństwo modelu. Te oceny są zgodne z zasadami Google dotyczącymi AI oraz zasadami bezpieczeństwa, które mają zapobiegać generowaniu przez nasze modele generatywnej AI szkodliwych treści, w tym:

  • Treści związane z materiałami przedstawiającymi wykorzystywanie seksualne dzieci i wykorzystywaniem
  • treści niebezpieczne (np. promujące samobójstwo lub zawierające instrukcje dotyczące działań, które mogą wyrządzić szkody w świecie rzeczywistym);
  • Treści o charakterze jednoznacznie seksualnym
  • szerzenie nienawiści (np. dehumanizowanie członków grup chronionych);
  • Nękanie (np. zachęcanie do przemocy wobec innych osób)

Wyniki oceny

We wszystkich obszarach testów bezpieczeństwa odnotowaliśmy znaczne ulepszenia we wszystkich kategoriach bezpieczeństwa treści w porównaniu z poprzednimi modelami Gemmy. Ogólnie modele Gemma 4 znacznie przewyższają modele Gemma 3 i 3n pod względem bezpieczeństwa, a jednocześnie utrzymują niski poziom nieuzasadnionych odmów. Wszystkie testy przeprowadzono bez filtrów bezpieczeństwa, aby ocenić możliwości i zachowania modelu. W przypadku modeli tekstowych (tekst na podstawie tekstu) i obrazkowych (konwersja obrazu na tekst) oraz wszystkich rozmiarów modeli odnotowano minimalną liczbę naruszeń zasad, a skuteczność znacznie wzrosła w porównaniu z poprzednimi modelami Gemma.

Użytkowanie i ograniczenia

Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Modele multimodalne (zdolne do przetwarzania obrazu, języka lub dźwięku) mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest kompletna. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.

  • Tworzenie treści i komunikacja
    • Generowanie tekstu: te modele mogą być używane do generowania kreatywnych formatów tekstu, takich jak wiersze, scenariusze, kod, teksty marketingowe i wersje robocze e-maili.
    • Czatboty i konwersacyjna AI: obsługują interfejsy konwersacyjne w ramach obsługi klienta, wirtualnych asystentów lub aplikacji interaktywnych.
    • Podsumowywanie tekstu: generuj zwięzłe podsumowania korpusu tekstów, artykułów naukowych lub raportów.
    • Wyodrębnianie danych z obrazów: te modele mogą służyć do wyodrębniania, interpretowania i podsumowywania danych wizualnych na potrzeby komunikacji tekstowej.
    • Przetwarzanie dźwięku i interakcje: mniejsze modele (E2B i E4B) mogą analizować i interpretować dane wejściowe audio, umożliwiając interakcje i transkrypcje głosowe.
  • Badania i edukacja
    • Badania nad przetwarzaniem języka naturalnego (NLP) i modelami VLM: te modele mogą stanowić podstawę dla badaczy do eksperymentowania z technikami VLM i NLP, opracowywania algorytmów i przyczyniania się do rozwoju tej dziedziny.
    • Narzędzia do nauki języków: wspierają interaktywną naukę języków, pomagają w korekcie gramatycznej i umożliwiają ćwiczenie pisania.
      • Eksploracja wiedzy: pomaganie badaczom w przeglądaniu dużych zbiorów tekstów przez generowanie podsumowań lub odpowiadanie na pytania dotyczące konkretnych tematów.

Ograniczenia

  • Dane treningowe
    • Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
    • Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
  • Kontekst i złożoność zadania
    • Modele dobrze radzą sobie z zadaniami, które można sformułować za pomocą jasnych promptów i instrukcji. Zadania otwarte lub bardzo złożone mogą być trudne.
    • Na skuteczność modelu może wpływać ilość dostarczonego kontekstu (dłuższy kontekst zwykle prowadzi do lepszych wyników, ale tylko do pewnego momentu).
  • Niejednoznaczność i niuanse językowe
    • Język naturalny jest z natury skomplikowany. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
  • Dokładność merytoryczna
    • Modele generują odpowiedzi na podstawie informacji, których nauczyły się z zestawów danych treningowych, ale nie są bazami wiedzy. Mogą generować nieprawidłowe lub nieaktualne stwierdzenia faktów.
  • Common Sense
    • Modele opierają się na statystycznych wzorcach językowych. W niektórych sytuacjach mogą nie być w stanie zastosować zdrowego rozsądku.

Względy etyczne i ryzyko

Opracowywanie modeli wizualno-językowych (VLM) budzi wiele wątpliwości etycznych. Podczas tworzenia otwartego modelu wzięliśmy pod uwagę te kwestie:

  • Uprzedzenia i obiektywność
    • Modele VLM trenowane na dużych zbiorach danych tekstowych i obrazowych z prawdziwego świata mogą odzwierciedlać uprzedzenia społeczno-kulturowe zawarte w materiałach szkoleniowych. Modele Gemma 4 zostały poddane dokładnej analizie, wstępnemu przetwarzaniu danych wejściowych i ocenom po trenowaniu, co opisano na tej karcie, aby zmniejszyć ryzyko wystąpienia tych odchyleń.
  • Nieprawdziwe informacje i niewłaściwe wykorzystanie
  • Przejrzystość i odpowiedzialność
    • Ta karta modelu zawiera podsumowanie szczegółów dotyczących architektury modeli, ich możliwości, ograniczeń i procesów oceny.
    • Odpowiedzialnie opracowany model otwarty daje możliwość dzielenia się innowacjami poprzez udostępnianie technologii VLM deweloperom i badaczom w całym ekosystemie AI.

Zidentyfikowane zagrożenia i sposoby ich ograniczenia:

  • Generowanie szkodliwych treści: niezbędne są mechanizmy i wskazówki dotyczące bezpieczeństwa treści. Zachęcamy deweloperów do zachowania ostrożności i wdrażania odpowiednich zabezpieczeń treści na podstawie zasad dotyczących konkretnych produktów i przypadków użycia aplikacji.
  • Nadużywanie w złośliwych celach: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania dużych modeli językowych. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom zgłaszanie nadużyć.
  • Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały odfiltrowane w celu usunięcia określonych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
  • Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz badanie technik usuwania uprzedzeń podczas trenowania i dostrajania modelu oraz w innych przypadkach użycia.

Zalety

W momencie udostępnienia ta rodzina modeli zapewnia wysoką wydajność otwartych implementacji modeli widzenia i języka, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnej wielkości.