Halaman Model: EmbeddingGemma
Referensi dan Dokumentasi Teknis:
- Toolkit AI Generatif yang Bertanggung Jawab
- EmbeddingGemma di Kaggle
- EmbeddingGemma di Vertex Model Garden
Persyaratan Penggunaan: Persyaratan
Penulis: Google DeepMind
Informasi Model
Deskripsi ringkasan dan definisi singkat input dan output.
Deskripsi
EmbeddingGemma adalah model penyematan terbuka yang canggih dengan 300 juta parameter untuk ukurannya, dari Google, yang dibuat dari Gemma 3 (dengan inisialisasi T5Gemma) dan riset serta teknologi yang sama dengan yang digunakan untuk membuat model Gemini. EmbeddingGemma menghasilkan representasi vektor teks, sehingga cocok untuk tugas penelusuran dan pengambilan, termasuk klasifikasi, pengelompokan, dan penelusuran kemiripan semantik. Model ini dilatih dengan data dalam lebih dari 100 bahasa lisan.
Ukurannya yang kecil dan fokus pada perangkat memungkinkan model ini di-deploy di lingkungan dengan resource terbatas seperti ponsel, laptop, atau desktop, sehingga mendemokratisasi akses ke model AI canggih dan membantu mendorong inovasi bagi semua orang.
Untuk mengetahui detail teknis selengkapnya, lihat makalah kami: EmbeddingGemma: Powerful and Lightweight Text Representations.
Input dan output
- Input: - String teks, seperti pertanyaan, perintah, atau dokumen yang akan disematkan
- Panjang konteks input maksimum 2K
 
- Output: - Representasi vektor numerik dari data teks input
- Ukuran dimensi penyematan output 768, dengan opsi yang lebih kecil tersedia (512, 256, atau 128) melalui Matryoshka Representation Learning (MRL). MRL memungkinkan pengguna memangkas penyematan output berukuran 768 ke ukuran yang diinginkan, lalu menormalisasi ulang untuk representasi yang efisien dan akurat.
 
Pengutipan
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
Data Model
Set Data Pelatihan
Model ini dilatih dengan set data teks yang mencakup berbagai sumber dengan total sekitar 320 miliar token. Berikut adalah komponen utamanya:
- Dokumen Web: Kumpulan teks web yang beragam memastikan model terpapar pada berbagai gaya bahasa, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 100 bahasa.
- Kode dan Dokumen Teknis: Mengekspos model ke kode dan dokumentasi teknis akan membantu model mempelajari struktur dan pola bahasa pemrograman serta konten ilmiah khusus, yang meningkatkan pemahamannya tentang kode dan pertanyaan teknis.
- Data Sintetis dan Khusus Tugas: Data pelatihan sintetis membantu mengajari model keterampilan tertentu. Hal ini mencakup data pilihan untuk tugas seperti pengambilan informasi, klasifikasi, dan analisis sentimen, yang membantu menyesuaikan performanya untuk aplikasi penyematan umum.
Kombinasi sumber data yang beragam ini sangat penting untuk melatih model penyematan multibahasa yang andal yang dapat menangani berbagai tugas dan format data.
Prapemrosesan Data
Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:
- Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
- Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma yang telah dilatih sebelumnya aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
- Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.
Pengembangan Model
Hardware
EmbeddingGemma dilatih menggunakan hardware Tensor Processing Unit (TPU) generasi terbaru (TPUv5e). Untuk mengetahui detail selengkapnya, lihat kartu model Gemma 3.
Software
Pelatihan dilakukan menggunakan JAX dan ML Pathways. Untuk mengetahui detail selengkapnya, lihat kartu model Gemma 3.
Evaluasi
Hasil Benchmark
Model dievaluasi terhadap kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pemahaman teks.
Checkpoint Presisi Penuh
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Dimensi | Mean (Task) | Mean (TaskType) | 
| 768d | 61.15 | 54,31 | 
| 512d | 60,71 | 53,89 | 
| 256d | 59,68 | 53,01 | 
| 128d | 58,23 | 51,77 | 
| MTEB (Inggris, v2) | ||
|---|---|---|
| Dimensi | Mean (Task) | Mean (TaskType) | 
| 768d | 69,67 | 65.11 | 
| 512d | 69,18 | 64,59 | 
| 256d | 68,37 | 64.02 | 
| 128d | 66,66 | 62,70 | 
| MTEB (Code, v1) | ||
|---|---|---|
| Dimensi | Mean (Task) | Mean (TaskType) | 
| 768d | 68.76 | 68.76 | 
| 512d | 68,48 | 68,48 | 
| 256d | 66,74 | 66,74 | 
| 128d | 62,96 | 62,96 | 
Checkpoint QAT
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Konfigurasi kuantitas (dimensi) | Mean (Task) | Mean (TaskType) | 
| Presisi Campuran* (768d) | 60,69 | 53,82 | 
| Q8_0 (768d) | 60,93 | 53,95 | 
| Q4_0 (768d) | 60,62 | 53,61 | 
| MTEB (Inggris, v2) | ||
|---|---|---|
| Konfigurasi kuantitas (dimensi) | Mean (Task) | Mean (TaskType) | 
| Presisi Campuran* (768d) | 69,32 | 64,82 | 
| Q8_0 (768d) | 69,49 | 64,84 | 
| Q4_0 (768d) | 69,31 | 64,65 | 
| MTEB (Code, v1) | ||
|---|---|---|
| Konfigurasi kuantitas (dimensi) | Mean (Task) | Mean (TaskType) | 
| Presisi Campuran* (768d) | 68,03 | 68,03 | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768d) | 67,99 | 67,99 | 
* Presisi Campuran mengacu pada kuantisasi per saluran dengan int4 untuk lapisan embedding, feedforward, dan proyeksi, serta int8 untuk perhatian (e4_a8_f4_p4).
Petunjuk Perintah
EmbeddingGemma dapat membuat embedding yang dioptimalkan untuk berbagai kasus penggunaan—seperti pengambilan dokumen, menjawab pertanyaan, dan verifikasi fakta—atau untuk jenis input tertentu—baik kueri maupun dokumen—menggunakan perintah yang ditambahkan ke string input.
Perintah kueri mengikuti formulir task: {task description} | query: dengan deskripsi tugas yang bervariasi menurut kasus penggunaan, dengan deskripsi tugas default adalah search result. Perintah gaya dokumen mengikuti format
title: {title | "none"} | text: dengan judulnya berupa none (default)
atau judul sebenarnya dari dokumen. Perhatikan bahwa memberikan judul, jika tersedia, akan meningkatkan performa model untuk perintah dokumen, tetapi mungkin memerlukan pemformatan manual.
Gunakan perintah berikut berdasarkan kasus penggunaan dan jenis data input Anda. Opsi ini mungkin sudah tersedia dalam konfigurasi EmbeddingGemma di framework pemodelan pilihan Anda.
| Kasus Penggunaan (enum jenis tugas) | Deskripsi | Perintah yang Direkomendasikan | 
|---|---|---|
| Pengambilan (Kueri) | Digunakan untuk membuat embedding yang dioptimalkan untuk penelusuran dokumen atau pengambilan informasi | tugas: hasil penelusuran | kueri: {content} | 
| Pengambilan (Dokumen) | title: {title | "none"} | text: {content} | |
| Penjawaban Pertanyaan | tugas: menjawab pertanyaan | kueri: {content} | |
| Verifikasi Fakta | task: fact checking | query: {content} | |
| Klasifikasi | Digunakan untuk membuat embedding yang dioptimalkan untuk mengklasifikasikan teks sesuai dengan label preset | task: classification | query: {content} | 
| Pengelompokan | Digunakan untuk membuat embedding yang dioptimalkan untuk mengelompokkan teks berdasarkan kemiripannya | task: clustering | query: {content} | 
| Kemiripan Semantik | Digunakan untuk membuat embedding yang dioptimalkan untuk menilai kesamaan teks. Fitur ini tidak ditujukan untuk kasus penggunaan pengambilan. | task: sentence similarity | query: {content} | 
| Pengambilan Kode | Digunakan untuk mengambil blok kode berdasarkan kueri natural language, seperti mengurutkan array atau membalikkan daftar tertaut. Embedding blok kode dihitung menggunakan retrieval_document. | task: code retrieval | query: {content} | 
Penggunaan dan Batasan
Model ini memiliki batasan tertentu yang harus diketahui pengguna.
Penggunaan yang Dimaksudkan
Model penyematan terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidaklah lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Kemiripan Semantik (Semantic Similarity): Embedding yang dioptimalkan untuk menilai kemiripan teks, seperti sistem rekomendasi dan deteksi duplikat
- Klasifikasi: Embedding yang dioptimalkan untuk mengklasifikasikan teks sesuai dengan label preset, seperti analisis sentimen dan deteksi spam
- Pengelompokan: Sematan yang dioptimalkan untuk mengelompokkan teks berdasarkan kesamaannya, seperti pengorganisasian dokumen, riset pasar, dan deteksi anomali
- Retrieval (Pengambilan Informasi) - Dokumen: Embedding yang dioptimalkan untuk penelusuran dokumen, seperti mengindeks artikel, buku, atau halaman web untuk penelusuran
- Kueri: Embedding yang dioptimalkan untuk kueri penelusuran umum, seperti penelusuran kustom
- Kueri Kode: Sematan yang dioptimalkan untuk pengambilan blok kode berdasarkan kueri bahasa alami, seperti saran dan penelusuran kode
 
- Question Answering: Sematan untuk pertanyaan dalam sistem jawaban pertanyaan, yang dioptimalkan untuk menemukan dokumen yang menjawab pertanyaan, seperti kotak chat. 
- Verifikasi Fakta: Sematan untuk pernyataan yang perlu diverifikasi, dioptimalkan untuk mengambil dokumen yang berisi bukti yang mendukung atau menyangkal pernyataan tersebut, seperti sistem pengecekan fakta otomatis. 
Batasan
- Data Pelatihan - Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
 
- Ambiguitas dan Nuansa Bahasa - Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
 
Pertimbangan dan Risiko Etis
Risiko yang teridentifikasi dan mitigasi:
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi berbahaya dari penyematan. Sumber daya pendidikan dan mekanisme pelaporan disediakan bagi pengguna untuk melaporkan penyalahgunaan. Penggunaan terlarang model Gemma diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Manfaat
Pada saat rilis, lini model ini menyediakan implementasi model penyematan terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan AI yang bertanggung jawab dibandingkan dengan model berukuran serupa. Dengan menggunakan metrik evaluasi tolok ukur yang dijelaskan dalam dokumen ini, model ini telah menunjukkan performa yang lebih unggul dibandingkan alternatif model terbuka lain yang berukuran serupa.