Gemma 3n dirilis dengan input audio dan dioptimalkan untuk digunakan di perangkat sehari-hari. Pelajari lebih lanjut

Halaman ini diterjemahkan oleh Cloud Translation API.

Kartu model EmbeddingGemma

Halaman Model: EmbeddingGemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan

Penulis: Google DeepMind

Informasi Model

Deskripsi ringkasan dan definisi singkat input dan output.

Deskripsi

EmbeddingGemma adalah model penyematan terbuka yang canggih dengan 300 juta parameter untuk ukurannya, dari Google, yang dibuat dari Gemma 3 (dengan inisialisasi T5Gemma) dan riset serta teknologi yang sama dengan yang digunakan untuk membuat model Gemini. EmbeddingGemma menghasilkan representasi vektor teks, sehingga cocok untuk tugas penelusuran dan pengambilan, termasuk klasifikasi, pengelompokan, dan penelusuran kemiripan semantik. Model ini dilatih dengan data dalam lebih dari 100 bahasa lisan.

Ukurannya yang kecil dan fokus pada perangkat memungkinkan model ini di-deploy di lingkungan dengan resource terbatas seperti ponsel, laptop, atau desktop, sehingga mendemokratisasi akses ke model AI canggih dan membantu mendorong inovasi bagi semua orang.

Untuk mengetahui detail teknis selengkapnya, lihat makalah kami: EmbeddingGemma: Powerful and Lightweight Text Representations.

Input dan output

Input:
- String teks, seperti pertanyaan, perintah, atau dokumen yang akan disematkan
- Panjang konteks input maksimum 2K
Output:
- Representasi vektor numerik dari data teks input
- Ukuran dimensi penyematan output 768, dengan opsi yang lebih kecil tersedia (512, 256, atau 128) melalui Matryoshka Representation Learning (MRL). MRL memungkinkan pengguna memangkas penyematan output berukuran 768 ke ukuran yang diinginkan, lalu menormalisasi ulang untuk representasi yang efisien dan akurat.

Pengutipan

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Data Model

Set Data Pelatihan

Model ini dilatih dengan set data teks yang mencakup berbagai sumber dengan total sekitar 320 miliar token. Berikut adalah komponen utamanya:

Dokumen Web: Kumpulan teks web yang beragam memastikan model terpapar pada berbagai gaya bahasa, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 100 bahasa.
Kode dan Dokumen Teknis: Mengekspos model ke kode dan dokumentasi teknis akan membantu model mempelajari struktur dan pola bahasa pemrograman serta konten ilmiah khusus, yang meningkatkan pemahamannya tentang kode dan pertanyaan teknis.
Data Sintetis dan Khusus Tugas: Data pelatihan sintetis membantu mengajari model keterampilan tertentu. Hal ini mencakup data pilihan untuk tugas seperti pengambilan informasi, klasifikasi, dan analisis sentimen, yang membantu menyesuaikan performanya untuk aplikasi penyematan umum.

Kombinasi sumber data yang beragam ini sangat penting untuk melatih model penyematan multibahasa yang andal yang dapat menangani berbagai tugas dan format data.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:

Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma yang telah dilatih sebelumnya aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Pengembangan Model

Hardware

EmbeddingGemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e). Untuk mengetahui detail selengkapnya, lihat kartu model Gemma 3.

Software

Pelatihan dilakukan menggunakan JAX dan ML Pathways. Untuk mengetahui detail selengkapnya, lihat kartu model Gemma 3.

Evaluasi

Hasil Benchmark

Model dievaluasi terhadap kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pemahaman teks.

Checkpoint Presisi Penuh

MTEB (Multilingual, v2)
Dimensi	Mean (Task)	Mean (TaskType)
768d	61.15	54,31
512d	60,71	53,89
256d	59,68	53,01
128d	58,23	51,77

MTEB (Inggris, v2)
Dimensi	Mean (Task)	Mean (TaskType)
768d	69,67	65.11
512d	69,18	64,59
256d	68,37	64.02
128d	66,66	62,70

MTEB (Code, v1)
Dimensi	Mean (Task)	Mean (TaskType)
768d	68.76	68.76
512d	68,48	68,48
256d	66,74	66,74
128d	62,96	62,96

Checkpoint QAT

MTEB (Multilingual, v2)
Konfigurasi kuantitas (dimensi)	Mean (Task)	Mean (TaskType)
Presisi Campuran* (768d)	60,69	53,82
Q8_0 (768d)	60,93	53,95
Q4_0 (768d)	60,62	53,61

MTEB (Inggris, v2)
Konfigurasi kuantitas (dimensi)	Mean (Task)	Mean (TaskType)
Presisi Campuran* (768d)	69,32	64,82
Q8_0 (768d)	69,49	64,84
Q4_0 (768d)	69,31	64,65

MTEB (Code, v1)
Konfigurasi kuantitas (dimensi)	Mean (Task)	Mean (TaskType)
Presisi Campuran* (768d)	68,03	68,03
Q8_0 (768d)	68.70	68.70
Q4_0 (768d)	67,99	67,99

* Presisi Campuran mengacu pada kuantisasi per saluran dengan int4 untuk lapisan embedding, feedforward, dan proyeksi, serta int8 untuk perhatian (e4_a8_f4_p4).

Petunjuk Perintah

EmbeddingGemma dapat membuat embedding yang dioptimalkan untuk berbagai kasus penggunaan—seperti pengambilan dokumen, menjawab pertanyaan, dan verifikasi fakta—atau untuk jenis input tertentu—baik kueri maupun dokumen—menggunakan perintah yang ditambahkan ke string input.

Perintah kueri mengikuti formulir task: {task description} | query: dengan deskripsi tugas yang bervariasi menurut kasus penggunaan, dengan deskripsi tugas default adalah search result. Perintah gaya dokumen mengikuti format title: {title | "none"} | text: dengan judulnya berupa none (default) atau judul sebenarnya dari dokumen. Perhatikan bahwa memberikan judul, jika tersedia, akan meningkatkan performa model untuk perintah dokumen, tetapi mungkin memerlukan pemformatan manual.

Gunakan perintah berikut berdasarkan kasus penggunaan dan jenis data input Anda. Opsi ini mungkin sudah tersedia dalam konfigurasi EmbeddingGemma di framework pemodelan pilihan Anda.

Kasus Penggunaan (enum jenis tugas)	Deskripsi	Perintah yang Direkomendasikan
Pengambilan (Kueri)	Digunakan untuk membuat embedding yang dioptimalkan untuk penelusuran dokumen atau pengambilan informasi	tugas: hasil penelusuran \| kueri: {content}
Pengambilan (Dokumen)		title: {title \| "none"} \| text: {content}
Penjawaban Pertanyaan		tugas: menjawab pertanyaan \| kueri: {content}
Verifikasi Fakta		task: fact checking \| query: {content}
Klasifikasi	Digunakan untuk membuat embedding yang dioptimalkan untuk mengklasifikasikan teks sesuai dengan label preset	task: classification \| query: {content}
Pengelompokan	Digunakan untuk membuat embedding yang dioptimalkan untuk mengelompokkan teks berdasarkan kemiripannya	task: clustering \| query: {content}
Kemiripan Semantik	Digunakan untuk membuat embedding yang dioptimalkan untuk menilai kesamaan teks. Fitur ini tidak ditujukan untuk kasus penggunaan pengambilan.	task: sentence similarity \| query: {content}
Pengambilan Kode	Digunakan untuk mengambil blok kode berdasarkan kueri natural language, seperti mengurutkan array atau membalikkan daftar tertaut. Embedding blok kode dihitung menggunakan retrieval_document.	task: code retrieval \| query: {content}

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Penggunaan yang Dimaksudkan

Model penyematan terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidaklah lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

Kemiripan Semantik (Semantic Similarity): Embedding yang dioptimalkan untuk menilai kemiripan teks, seperti sistem rekomendasi dan deteksi duplikat
Klasifikasi: Embedding yang dioptimalkan untuk mengklasifikasikan teks sesuai dengan label preset, seperti analisis sentimen dan deteksi spam
Pengelompokan: Sematan yang dioptimalkan untuk mengelompokkan teks berdasarkan kesamaannya, seperti pengorganisasian dokumen, riset pasar, dan deteksi anomali
Retrieval (Pengambilan Informasi)
- Dokumen: Embedding yang dioptimalkan untuk penelusuran dokumen, seperti mengindeks artikel, buku, atau halaman web untuk penelusuran
- Kueri: Embedding yang dioptimalkan untuk kueri penelusuran umum, seperti penelusuran kustom
- Kueri Kode: Sematan yang dioptimalkan untuk pengambilan blok kode berdasarkan kueri bahasa alami, seperti saran dan penelusuran kode
Question Answering: Sematan untuk pertanyaan dalam sistem jawaban pertanyaan, yang dioptimalkan untuk menemukan dokumen yang menjawab pertanyaan, seperti kotak chat.
Verifikasi Fakta: Sematan untuk pernyataan yang perlu diverifikasi, dioptimalkan untuk mengambil dokumen yang berisi bukti yang mendukung atau menyangkal pernyataan tersebut, seperti sistem pengecekan fakta otomatis.

Batasan

Data Pelatihan
- Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
Ambiguitas dan Nuansa Bahasa
- Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.

Pertimbangan dan Risiko Etis

Risiko yang teridentifikasi dan mitigasi:

Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi berbahaya dari penyematan. Sumber daya pendidikan dan mekanisme pelaporan disediakan bagi pengguna untuk melaporkan penyalahgunaan. Penggunaan terlarang model Gemma diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, lini model ini menyediakan implementasi model penyematan terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan AI yang bertanggung jawab dibandingkan dengan model berukuran serupa. Dengan menggunakan metrik evaluasi tolok ukur yang dijelaskan dalam dokumen ini, model ini telah menunjukkan performa yang lebih unggul dibandingkan alternatif model terbuka lain yang berukuran serupa.