Gemma 3n została wydana z wejściowym sygnałem audio i zoptymalizowana pod kątem urządzeń do codziennego użytku. Więcej informacji

Ta strona została przetłumaczona przez Cloud Translation API.

Karta modelu EmbeddingGemma

Strona modelu: EmbeddingGemma

Materiały i dokumentacja techniczna:

Warunki korzystania z usługi: Warunki

Autorzy: Google DeepMind

Informacje o modelu

Podsumowanie i krótka definicja danych wejściowych i wyjściowych.

Opis

EmbeddingGemma to otwarty model osadzania od Google, który ma 300 mln parametrów i jest najnowocześniejszy w swojej kategorii. Został stworzony na podstawie modelu Gemma 3 (z inicjalizacją T5Gemma) oraz tych samych badań i technologii, które wykorzystano do stworzenia modeli Gemini. EmbeddingGemma tworzy wektorowe reprezentacje tekstu, dzięki czemu dobrze sprawdza się w zadaniach związanych z wyszukiwaniem i pobieraniem informacji, w tym w klasyfikacji, klastrowaniu i wyszukiwaniu podobieństw semantycznych. Ten model został wytrenowany na danych w ponad 100 językach mówionych.

Mały rozmiar i skupienie na urządzeniu umożliwiają wdrażanie w środowiskach o ograniczonych zasobach, takich jak telefony komórkowe, laptopy czy komputery stacjonarne, co demokratyzuje dostęp do najnowocześniejszych modeli AI i pomaga w rozwoju innowacji dla wszystkich.

Więcej szczegółów technicznych znajdziesz w naszym artykule: EmbeddingGemma: Powerful and Lightweight Text Representations (w języku angielskim).

Dane wejściowe i wyjściowe

Dane wejściowe:
- ciąg tekstowy, np. pytanie, prompt lub dokument do umieszczenia;
- Maksymalna długość kontekstu wejściowego to 2 tys. znaków.
Dane wyjściowe:
- numeryczne reprezentacje wektorowe danych tekstowych wejściowych,
- Wymiar osadzania danych wyjściowych wynosi 768, ale dostępne są też mniejsze opcje (512, 256 lub 128) dzięki uczeniu reprezentacji matrioszki (MRL). MRL umożliwia użytkownikom obcięcie osadzenia wyjściowego o rozmiarze 768 do wybranego rozmiaru, a następnie ponowne znormalizowanie go w celu uzyskania wydajnej i dokładnej reprezentacji.

Cytat

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Dane modelu

Zbiór danych treningowych

Ten model został wytrenowany na zbiorze danych tekstowych, który zawiera szeroką gamę źródeł o łącznej liczbie około 320 miliardów tokenów. Oto najważniejsze komponenty:

Dokumenty internetowe: różnorodny zbiór tekstów internetowych zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 100 językach.
Kod i dokumentacja techniczna: udostępnianie modelu kodu i dokumentacji technicznej pomaga mu poznać strukturę i wzorce języków programowania oraz specjalistycznych treści naukowych, co poprawia jego zrozumienie kodu i pytań technicznych.
Dane syntetyczne i dane dotyczące konkretnych zadań: syntetyczne dane treningowe pomagają nauczyć model konkretnych umiejętności. Obejmuje to wyselekcjonowane dane do zadań takich jak wyszukiwanie informacji, klasyfikacja i analiza sentymentu, co pomaga dostosować skuteczność modelu do typowych zastosowań związanych z osadzaniem.

Połączenie tych różnorodnych źródeł danych ma kluczowe znaczenie dla trenowania zaawansowanego wielojęzycznego modelu osadzania, który może obsługiwać wiele różnych zadań i formatów danych.

Wstępne przetwarzanie danych

Oto główne metody czyszczenia i filtrowania danych zastosowane w przypadku danych treningowych:

Filtrowanie treści CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie treści CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby zapewnić wykluczenie szkodliwych i nielegalnych treści.
Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa i niezawodności wstępnie wytrenowanych modeli Gemma zastosowano zautomatyzowane techniki filtrowania z zestawów treningowych niektórych informacji osobistych i innych danych wrażliwych.
Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.

Opracowywanie modeli

Sprzęt

Model EmbeddingGemma został wytrenowany przy użyciu najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e). Więcej informacji znajdziesz na karcie modelu Gemma 3.

Oprogramowanie

Trenowanie odbyło się przy użyciu JAX i ML Pathways. Więcej informacji znajdziesz na karcie modelu Gemma 3.

Ocena

Wyniki testu porównawczego

Model został oceniony na podstawie dużego zbioru różnych zbiorów danych i rodzajów pomiarów, aby uwzględnić różne aspekty rozumienia tekstu.

Punkt kontrolny pełnej precyzji

MTEB (Multilingual, v2)
Wymiarowość	Średnia (zadanie)	Średnia (TaskType)
768 dni	61,15	54,31
512 dni	60,71	53,89
256 d.	59,68	53,01
128 dni	58,23	51,77

MTEB (English, v2)
Wymiarowość	Średnia (zadanie)	Średnia (TaskType)
768 dni	69,67	65.11
512 dni	69,18	64,59
256 d.	68,37	64,02
128 dni	66,66	62,70

MTEB (Code, v1)
Wymiarowość	Średnia (zadanie)	Średnia (TaskType)
768 dni	68,76	68,76
512 dni	68,48	68,48
256 d.	66,74	66,74
128 dni	62,96	62,96

Punkty kontrolne QAT

MTEB (Multilingual, v2)
Konfiguracja kwantyzacji (wymiarowość)	Średnia (zadanie)	Średnia (TaskType)
Mieszana precyzja* (768d)	60,69	53,82
Q8_0 (768d)	60,93	53,95
Q4_0 (768d)	60,62	53,61

MTEB (English, v2)
Konfiguracja kwantyzacji (wymiarowość)	Średnia (zadanie)	Średnia (TaskType)
Mieszana precyzja* (768d)	69,32	64,82
Q8_0 (768d)	69,49	64,84
Q4_0 (768d)	69,31	64,65

MTEB (Code, v1)
Konfiguracja kwantyzacji (wymiarowość)	Średnia (zadanie)	Średnia (TaskType)
Mieszana precyzja* (768d)	68,03	68,03
Q8_0 (768d)	68,70	68,70
Q4_0 (768d)	67,99	67,99

* Mieszana precyzja odnosi się do kwantyzacji na kanał z użyciem int4 w przypadku warstw osadzania, feedforward i projekcji oraz int8 w przypadku warstw uwagi (e4_a8_f4_p4).

Instrukcje dotyczące promptów

EmbeddingGemma może generować zoptymalizowane wektory osadzeń do różnych zastosowań, takich jak wyszukiwanie dokumentów, odpowiadanie na pytania i weryfikacja faktów, lub do określonych typów danych wejściowych – zapytania lub dokumentu – za pomocą promptów dodawanych na początku ciągów wejściowych.

Prompty zapytań mają postać task: {task description} | query:, gdzie opis zadania różni się w zależności od przypadku użycia, a domyślny opis zadania to search result. Prompty w formie dokumentu mają postaćtitle: {title | "none"} | text:, gdzie tytuł to none (wartość domyślna) lub rzeczywisty tytuł dokumentu. Pamiętaj, że podanie tytułu (jeśli jest dostępny) poprawi skuteczność modelu w przypadku promptów dotyczących dokumentów, ale może wymagać ręcznego formatowania.

Użyj poniższych promptów w zależności od przypadku użycia i typu danych wejściowych. Mogą one być już dostępne w konfiguracji EmbeddingGemma w wybranym przez Ciebie frameworku modelowania.

Use Case (task type enum)	Opisy	Zalecany prompt
Wyszukiwanie (zapytanie)	Służy do generowania osadzeń zoptymalizowanych pod kątem wyszukiwania dokumentów lub wyszukiwania informacji.	zadanie: wynik wyszukiwania \| zapytanie: {content}
Wyszukiwanie (dokument)		title: {title \| "none"} \| text: {content}
Odpowiadanie na pytania		task: question answering \| query: {content}
Weryfikacja informacji		task: fact checking \| query: {content}
Klasyfikacja	Służy do generowania osadzeń zoptymalizowanych pod kątem klasyfikowania tekstów według wstępnie ustawionych etykiet.	zadanie: klasyfikacja \| zapytanie: {content}
Grupowanie	Służy do generowania wektorów, które są zoptymalizowane pod kątem grupowania tekstów na podstawie ich podobieństw.	task: clustering \| query: {content}
Podobieństwo semantyczne	Służy do generowania osadzeń zoptymalizowanych pod kątem oceny podobieństwa tekstu. Nie jest to przeznaczone do przypadków użycia związanych z wyszukiwaniem.	task: sentence similarity \| query: {content}
Pobieranie kodu	Służy do pobierania bloku kodu na podstawie zapytania w języku naturalnym, np. sort an array (posortuj tablicę) lub reverse a linked list (odwróć listę połączoną). Osadzanie bloków kodu jest obliczane za pomocą funkcji retrieval_document.	task: code retrieval \| query: {content}

Wykorzystanie i ograniczenia

Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.

Przeznaczenie

Otwarte modele osadzania mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.

Podobieństwo semantyczne: reprezentacje właściwościowe zoptymalizowane pod kątem oceny podobieństwa tekstu, np. w systemach rekomendacji i wykrywania duplikatów.
Klasyfikacja: osadzanie zoptymalizowane pod kątem klasyfikowania tekstów według wstępnie ustawionych etykiet, np. analiza nastawienia i wykrywanie spamu.
Klastrowanie: osadzanie zoptymalizowane pod kątem klastrowania tekstów na podstawie ich podobieństw, np. w przypadku porządkowania dokumentów, badań rynkowych i wykrywania anomalii.
Wyszukiwanie
- Dokument: osadzanie zoptymalizowane pod kątem wyszukiwania dokumentów, np. indeksowania artykułów, książek lub stron internetowych na potrzeby wyszukiwania.
- Zapytanie: wektory dystrybucyjne zoptymalizowane pod kątem ogólnych zapytań, np. wyszukiwania niestandardowego.
- Zapytanie dotyczące kodu: osadzanie zoptymalizowane pod kątem wyszukiwania bloków kodu na podstawie zapytań w języku naturalnym, np. sugestii kodu i wyszukiwania.
Odpowiadanie na pytania: osadzanie pytań w systemie odpowiadania na pytania, zoptymalizowane pod kątem znajdowania dokumentów, które zawierają odpowiedź na pytanie, np. w przypadku czatbota.
Weryfikacja faktów: osadzanie stwierdzeń, które wymagają weryfikacji, zoptymalizowane pod kątem wyszukiwania dokumentów zawierających dowody potwierdzające lub obalające stwierdzenie, np. w automatycznych systemach weryfikacji faktów.

Ograniczenia

Dane do trenowania
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.

Względy etyczne i ryzyko

Zidentyfikowane ryzyka i sposoby ich ograniczania:

Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz stosowanie technik usuwania uprzedzeń podczas trenowania i dostrajania modelu oraz w innych przypadkach użycia.
Nadużywanie do złośliwych celów: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania osadzania. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom oznaczanie przypadków nadużycia. Niedozwolone zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań modeli Gemma.
Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały odfiltrowane w celu usunięcia określonych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.

Zalety

W momencie wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność otwartych implementacji modeli osadzania, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach. W testach porównawczych opisanych w tym dokumencie modele te wykazały wyższą skuteczność niż inne, porównywalne pod względem rozmiaru otwarte modele.