Strona modelu: EmbeddingGemma
Materiały i dokumentacja techniczna:
- Zestaw narzędzi odpowiedzialnej generatywnej AI
- Umieszczanie Gemmy na Kaggle
- EmbeddingGemma w bazie modeli Vertex
Warunki korzystania z usługi: Warunki
Autorzy: Google DeepMind
Informacje o modelu
Podsumowanie i krótka definicja danych wejściowych i wyjściowych.
Opis
EmbeddingGemma to otwarty model osadzania od Google, który ma 300 mln parametrów i jest najnowocześniejszy w swojej kategorii. Został stworzony na podstawie modelu Gemma 3 (z inicjalizacją T5Gemma) oraz tych samych badań i technologii, które wykorzystano do stworzenia modeli Gemini. EmbeddingGemma tworzy wektorowe reprezentacje tekstu, dzięki czemu dobrze sprawdza się w zadaniach związanych z wyszukiwaniem i pobieraniem informacji, w tym w klasyfikacji, klastrowaniu i wyszukiwaniu podobieństw semantycznych. Ten model został wytrenowany na danych w ponad 100 językach mówionych.
Mały rozmiar i skupienie na urządzeniu umożliwiają wdrażanie w środowiskach o ograniczonych zasobach, takich jak telefony komórkowe, laptopy czy komputery stacjonarne, co demokratyzuje dostęp do najnowocześniejszych modeli AI i pomaga w rozwoju innowacji dla wszystkich.
Więcej szczegółów technicznych znajdziesz w naszym artykule: EmbeddingGemma: Powerful and Lightweight Text Representations (w języku angielskim).
Dane wejściowe i wyjściowe
Dane wejściowe:
- ciąg tekstowy, np. pytanie, prompt lub dokument do umieszczenia;
- Maksymalna długość kontekstu wejściowego to 2 tys. znaków.
Dane wyjściowe:
- numeryczne reprezentacje wektorowe danych tekstowych wejściowych,
- Wymiar osadzania danych wyjściowych wynosi 768, ale dostępne są też mniejsze opcje (512, 256 lub 128) dzięki uczeniu reprezentacji matrioszki (MRL). MRL umożliwia użytkownikom obcięcie osadzenia wyjściowego o rozmiarze 768 do wybranego rozmiaru, a następnie ponowne znormalizowanie go w celu uzyskania wydajnej i dokładnej reprezentacji.
Cytat
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Dane modelu
Zbiór danych treningowych
Ten model został wytrenowany na zbiorze danych tekstowych, który zawiera szeroką gamę źródeł o łącznej liczbie około 320 miliardów tokenów. Oto najważniejsze komponenty:
- Dokumenty internetowe: różnorodny zbiór tekstów internetowych zapewnia modelowi dostęp do szerokiej gamy stylów językowych, tematów i słownictwa. Zbiór danych treningowych zawiera treści w ponad 100 językach.
- Kod i dokumentacja techniczna: udostępnianie modelu kodu i dokumentacji technicznej pomaga mu poznać strukturę i wzorce języków programowania oraz specjalistycznych treści naukowych, co poprawia jego zrozumienie kodu i pytań technicznych.
- Dane syntetyczne i dane dotyczące konkretnych zadań: syntetyczne dane treningowe pomagają nauczyć model konkretnych umiejętności. Obejmuje to wyselekcjonowane dane do zadań takich jak wyszukiwanie informacji, klasyfikacja i analiza sentymentu, co pomaga dostosować skuteczność modelu do typowych zastosowań związanych z osadzaniem.
Połączenie tych różnorodnych źródeł danych ma kluczowe znaczenie dla trenowania zaawansowanego wielojęzycznego modelu osadzania, który może obsługiwać wiele różnych zadań i formatów danych.
Wstępne przetwarzanie danych
Oto główne metody czyszczenia i filtrowania danych zastosowane w przypadku danych treningowych:
- Filtrowanie treści CSAM: na wielu etapach procesu przygotowywania danych stosowaliśmy rygorystyczne filtrowanie treści CSAM (materiałów przedstawiających wykorzystywanie seksualne dzieci), aby zapewnić wykluczenie szkodliwych i nielegalnych treści.
- Filtrowanie danych wrażliwych: w ramach zapewniania bezpieczeństwa i niezawodności wstępnie wytrenowanych modeli Gemma zastosowano zautomatyzowane techniki filtrowania z zestawów treningowych niektórych informacji osobistych i innych danych wrażliwych.
- Dodatkowe metody: filtrowanie na podstawie jakości i bezpieczeństwa treści zgodnie z naszymi zasadami.
Opracowywanie modeli
Sprzęt
Model EmbeddingGemma został wytrenowany przy użyciu najnowszej generacji sprzętu Tensor Processing Unit (TPU) (TPUv5e). Więcej informacji znajdziesz na karcie modelu Gemma 3.
Oprogramowanie
Trenowanie odbyło się przy użyciu JAX i ML Pathways. Więcej informacji znajdziesz na karcie modelu Gemma 3.
Ocena
Wyniki testu porównawczego
Model został oceniony na podstawie dużego zbioru różnych zbiorów danych i rodzajów pomiarów, aby uwzględnić różne aspekty rozumienia tekstu.
Punkt kontrolny pełnej precyzji
MTEB (Multilingual, v2) | ||
---|---|---|
Wymiarowość | Średnia (zadanie) | Średnia (TaskType) |
768 dni | 61,15 | 54,31 |
512 dni | 60,71 | 53,89 |
256 d. | 59,68 | 53,01 |
128 dni | 58,23 | 51,77 |
MTEB (English, v2) | ||
---|---|---|
Wymiarowość | Średnia (zadanie) | Średnia (TaskType) |
768 dni | 69,67 | 65.11 |
512 dni | 69,18 | 64,59 |
256 d. | 68,37 | 64,02 |
128 dni | 66,66 | 62,70 |
MTEB (Code, v1) | ||
---|---|---|
Wymiarowość | Średnia (zadanie) | Średnia (TaskType) |
768 dni | 68,76 | 68,76 |
512 dni | 68,48 | 68,48 |
256 d. | 66,74 | 66,74 |
128 dni | 62,96 | 62,96 |
Punkty kontrolne QAT
MTEB (Multilingual, v2) | ||
---|---|---|
Konfiguracja kwantyzacji (wymiarowość) | Średnia (zadanie) | Średnia (TaskType) |
Mieszana precyzja* (768d) | 60,69 | 53,82 |
Q8_0 (768d) | 60,93 | 53,95 |
Q4_0 (768d) | 60,62 | 53,61 |
MTEB (English, v2) | ||
---|---|---|
Konfiguracja kwantyzacji (wymiarowość) | Średnia (zadanie) | Średnia (TaskType) |
Mieszana precyzja* (768d) | 69,32 | 64,82 |
Q8_0 (768d) | 69,49 | 64,84 |
Q4_0 (768d) | 69,31 | 64,65 |
MTEB (Code, v1) | ||
---|---|---|
Konfiguracja kwantyzacji (wymiarowość) | Średnia (zadanie) | Średnia (TaskType) |
Mieszana precyzja* (768d) | 68,03 | 68,03 |
Q8_0 (768d) | 68,70 | 68,70 |
Q4_0 (768d) | 67,99 | 67,99 |
* Mieszana precyzja odnosi się do kwantyzacji na kanał z użyciem int4 w przypadku warstw osadzania, feedforward i projekcji oraz int8 w przypadku warstw uwagi (e4_a8_f4_p4).
Instrukcje dotyczące promptów
EmbeddingGemma może generować zoptymalizowane wektory osadzeń do różnych zastosowań, takich jak wyszukiwanie dokumentów, odpowiadanie na pytania i weryfikacja faktów, lub do określonych typów danych wejściowych – zapytania lub dokumentu – za pomocą promptów dodawanych na początku ciągów wejściowych.
Prompty zapytań mają postać task: {task description} | query:
, gdzie opis zadania różni się w zależności od przypadku użycia, a domyślny opis zadania to search result
. Prompty w formie dokumentu mają postaćtitle: {title | "none"} | text:
, gdzie tytuł to none
(wartość domyślna) lub rzeczywisty tytuł dokumentu. Pamiętaj, że podanie tytułu (jeśli jest dostępny) poprawi skuteczność modelu w przypadku promptów dotyczących dokumentów, ale może wymagać ręcznego formatowania.
Użyj poniższych promptów w zależności od przypadku użycia i typu danych wejściowych. Mogą one być już dostępne w konfiguracji EmbeddingGemma w wybranym przez Ciebie frameworku modelowania.
Use Case (task type enum) |
Opisy |
Zalecany prompt |
---|---|---|
Wyszukiwanie (zapytanie) |
Służy do generowania osadzeń zoptymalizowanych pod kątem wyszukiwania dokumentów lub wyszukiwania informacji. |
zadanie: wynik wyszukiwania | zapytanie: {content} |
Wyszukiwanie (dokument) |
title: {title | "none"} | text: {content} |
|
Odpowiadanie na pytania |
task: question answering | query: {content} |
|
Weryfikacja informacji |
task: fact checking | query: {content} |
|
Klasyfikacja |
Służy do generowania osadzeń zoptymalizowanych pod kątem klasyfikowania tekstów według wstępnie ustawionych etykiet. |
zadanie: klasyfikacja | zapytanie: {content} |
Grupowanie |
Służy do generowania wektorów, które są zoptymalizowane pod kątem grupowania tekstów na podstawie ich podobieństw. |
task: clustering | query: {content} |
Podobieństwo semantyczne |
Służy do generowania osadzeń zoptymalizowanych pod kątem oceny podobieństwa tekstu. Nie jest to przeznaczone do przypadków użycia związanych z wyszukiwaniem. |
task: sentence similarity | query: {content} |
Pobieranie kodu |
Służy do pobierania bloku kodu na podstawie zapytania w języku naturalnym, np. sort an array (posortuj tablicę) lub reverse a linked list (odwróć listę połączoną). Osadzanie bloków kodu jest obliczane za pomocą funkcji retrieval_document. |
task: code retrieval | query: {content} |
Wykorzystanie i ograniczenia
Modele te mają pewne ograniczenia, o których użytkownicy powinni wiedzieć.
Przeznaczenie
Otwarte modele osadzania mają szerokie zastosowanie w różnych branżach i dziedzinach. Poniższa lista potencjalnych zastosowań nie jest wyczerpująca. Celem tej listy jest dostarczenie informacji kontekstowych o możliwych przypadkach użycia, które twórcy modelu wzięli pod uwagę w ramach trenowania i rozwijania modelu.
- Podobieństwo semantyczne: reprezentacje właściwościowe zoptymalizowane pod kątem oceny podobieństwa tekstu, np. w systemach rekomendacji i wykrywania duplikatów.
- Klasyfikacja: osadzanie zoptymalizowane pod kątem klasyfikowania tekstów według wstępnie ustawionych etykiet, np. analiza nastawienia i wykrywanie spamu.
- Klastrowanie: osadzanie zoptymalizowane pod kątem klastrowania tekstów na podstawie ich podobieństw, np. w przypadku porządkowania dokumentów, badań rynkowych i wykrywania anomalii.
Wyszukiwanie
- Dokument: osadzanie zoptymalizowane pod kątem wyszukiwania dokumentów, np. indeksowania artykułów, książek lub stron internetowych na potrzeby wyszukiwania.
- Zapytanie: wektory dystrybucyjne zoptymalizowane pod kątem ogólnych zapytań, np. wyszukiwania niestandardowego.
- Zapytanie dotyczące kodu: osadzanie zoptymalizowane pod kątem wyszukiwania bloków kodu na podstawie zapytań w języku naturalnym, np. sugestii kodu i wyszukiwania.
Odpowiadanie na pytania: osadzanie pytań w systemie odpowiadania na pytania, zoptymalizowane pod kątem znajdowania dokumentów, które zawierają odpowiedź na pytanie, np. w przypadku czatbota.
Weryfikacja faktów: osadzanie stwierdzeń, które wymagają weryfikacji, zoptymalizowane pod kątem wyszukiwania dokumentów zawierających dowody potwierdzające lub obalające stwierdzenie, np. w automatycznych systemach weryfikacji faktów.
Ograniczenia
Dane do trenowania
- Jakość i różnorodność danych treningowych mają znaczący wpływ na możliwości modelu. Uprzedzenia lub luki w danych treningowych mogą prowadzić do ograniczeń w odpowiedziach modelu.
- Zakres zbioru danych treningowych określa obszary tematyczne, z którymi model może sobie skutecznie radzić.
Niejednoznaczność i niuanse językowe
- Język naturalny jest z natury złożony. Modele mogą mieć trudności z rozumieniem subtelnych niuansów, sarkazmu lub języka przenośnego.
Względy etyczne i ryzyko
Zidentyfikowane ryzyka i sposoby ich ograniczania:
- Utrwalanie uprzedzeń: zalecamy ciągłe monitorowanie (za pomocą wskaźników oceny i weryfikacji przez ludzi) oraz stosowanie technik usuwania uprzedzeń podczas trenowania i dostrajania modelu oraz w innych przypadkach użycia.
- Nadużywanie do złośliwych celów: ograniczenia techniczne oraz edukacja deweloperów i użytkowników mogą pomóc w ograniczeniu złośliwego wykorzystywania osadzania. Udostępniamy materiały edukacyjne i mechanizmy zgłaszania, które umożliwiają użytkownikom oznaczanie przypadków nadużycia. Niedozwolone zastosowania modeli Gemma są opisane w zasadach dotyczących niedozwolonych zastosowań modeli Gemma.
- Naruszenia prywatności: modele zostały wytrenowane na danych, które zostały odfiltrowane w celu usunięcia określonych informacji osobistych i innych danych wrażliwych. Zachęcamy deweloperów do przestrzegania przepisów dotyczących prywatności za pomocą technik chroniących prywatność.
Zalety
W momencie wprowadzenia na rynek ta rodzina modeli zapewnia wysoką wydajność otwartych implementacji modeli osadzania, które zostały zaprojektowane od podstaw z myślą o odpowiedzialnym rozwoju AI w porównaniu z modelami o podobnych rozmiarach. W testach porównawczych opisanych w tym dokumencie modele te wykazały wyższą skuteczność niż inne, porównywalne pod względem rozmiaru otwarte modele.