Model Sayfası: EmbeddingGemma
Kaynaklar ve Teknik Belgeler:
Kullanım Şartları: Şartlar
Yazarlar: Google DeepMind
Model Bilgisi
Giriş ve çıkışların özet açıklaması ve kısa tanımı.
Açıklama
EmbeddingGemma, 300 milyon parametreli, kendi boyutunda son teknoloji ürünü, Google'ın açık yerleştirme modelidir. Gemma 3'ten (T5Gemma başlatma ile) ve Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknolojiden yararlanılarak geliştirilmiştir. EmbeddingGemma, metnin vektör temsillerini oluşturur. Bu nedenle sınıflandırma, kümeleme ve semantik benzerlik araması gibi arama ve alma görevleri için uygundur. Bu model, 100'den fazla konuşma dilindeki verilerle eğitilmiştir.
Küçük boyutu ve cihaz üzerinde çalışmaya odaklanması sayesinde cep telefonları, dizüstü bilgisayarlar veya masaüstü bilgisayarlar gibi sınırlı kaynaklara sahip ortamlarda dağıtılabilir. Bu sayede, son teknoloji yapay zeka modellerine erişim herkes için mümkün hale gelir ve inovasyon teşvik edilir.
Daha fazla teknik bilgi için şu makalemize göz atın: EmbeddingGemma: Powerful and Lightweight Text Representations.
Girişler ve çıkışlar
Giriş:
- Soru, istem veya yerleştirilecek doküman gibi metin dizeleri
- Maksimum 2.000 karakterlik giriş bağlamı uzunluğu
Çıkış:
- Giriş metin verilerinin sayısal vektör temsilleri
- Matryoshka Representation Learning (MRL) aracılığıyla daha küçük seçenekler (512, 256 veya 128) sunan 768 boyutunda çıkış yerleştirme boyutu. MRL, kullanıcıların 768 boyutundaki çıkış yerleştirmesini istedikleri boyuta kısaltmalarına ve ardından verimli ve doğru temsil için yeniden normalleştirmelerine olanak tanır.
Alıntı
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Model Verileri
Eğitim Veri Kümesi
Bu model, yaklaşık 320 milyar jeton içeren çok çeşitli kaynaklardan oluşan bir metin verileri veri kümesi üzerinde eğitilmiştir. Temel bileşenler şunlardır:
- Web belgeleri: Çeşitli web metinleri, modelin geniş bir dilbilimsel stil, konu ve kelime dağarcığı yelpazesine maruz kalmasını sağlar. Eğitim veri kümesi, 100'den fazla dildeki içerikleri kapsar.
- Kod ve Teknik Belgeler: Modele kod ve teknik belgeler sunmak, programlama dillerinin yapısını ve kalıplarını, ayrıca uzmanlık gerektiren bilimsel içerikleri öğrenmesine yardımcı olur. Bu sayede kod ve teknik sorularla ilgili anlayışı gelişir.
- Sentetik ve Göreve Özgü Veriler: Sentetik eğitim verileri, modele belirli becerileri öğretmeye yardımcı olur. Bu, bilgi alma, sınıflandırma ve duygu analizi gibi görevler için derlenmiş verileri içerir. Bu veriler, yaygın yerleştirme uygulamaları için performansının hassas şekilde ayarlanmasına yardımcı olur.
Bu çeşitli veri kaynaklarının birleşimi, çok çeşitli farklı görevleri ve veri biçimlerini işleyebilen güçlü bir çok dilli yerleştirme modelinin eğitilmesi için çok önemlidir.
Veri Ön İşleme
Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:
- CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
- Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
- Ek yöntemler: Politikalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme.
Model Geliştirme
Donanım
EmbeddingGemma, en yeni nesil Tensor İşleme Birimi (TPU) donanımı (TPUv5e) kullanılarak eğitilmiştir. Daha fazla bilgi için Gemma 3 model kartına bakın.
Yazılım
Eğitim, JAX ve ML Pathways kullanılarak yapıldı. Daha fazla bilgi için Gemma 3 model kartına bakın.
Değerlendirme
Karşılaştırma Sonuçları
Model, metin anlama ile ilgili farklı yönleri kapsamak için farklı veri kümeleri ve metriklerden oluşan büyük bir koleksiyonla karşılaştırılarak değerlendirildi.
Tam Hassasiyet Kontrol Noktası
| MTEB (Çok Dilli, v2) | ||
|---|---|---|
| Boyutluluk | Ortalama (Görev) | Ortalama (TaskType) |
| 768d | 61,15 | 54,31 |
| 512d | 60,71 | 53,89 |
| 256g | 59,68 | 53,01 |
| 128d | 58,23 | 51,77 |
| MTEB (İngilizce, v2) | ||
|---|---|---|
| Boyutluluk | Ortalama (Görev) | Ortalama (TaskType) |
| 768d | 69,67 | 65.11 |
| 512d | 69,18 | 64,59 |
| 256g | 68,37 | 64,02 |
| 128d | 66,66 | 62,70 |
| MTEB (Code, v1) | ||
|---|---|---|
| Boyutluluk | Ortalama (Görev) | Ortalama (TaskType) |
| 768d | 68,76 | 68,76 |
| 512d | 68,48 | 68,48 |
| 256g | 66,74 | 66,74 |
| 128d | 62,96 | 62,96 |
QAT Kontrol Noktaları
| MTEB (Çok Dilli, v2) | ||
|---|---|---|
| Nicelik yapılandırması (boyut) | Ortalama (Görev) | Ortalama (TaskType) |
| Karma Hassasiyet* (768d) | 60,69 | 53,82 |
| Q8_0 (768d) | 60,93 | 53,95 |
| Q4_0 (768d) | 60,62 | 53,61 |
| MTEB (İngilizce, v2) | ||
|---|---|---|
| Nicelik yapılandırması (boyut) | Ortalama (Görev) | Ortalama (TaskType) |
| Karma Hassasiyet* (768d) | 69,32 | 64,82 |
| Q8_0 (768d) | 69,49 | 64,84 |
| Q4_0 (768d) | 69,31 | 64,65 |
| MTEB (Code, v1) | ||
|---|---|---|
| Nicelik yapılandırması (boyut) | Ortalama (Görev) | Ortalama (TaskType) |
| Karma Hassasiyet* (768d) | 68,03 | 68,03 |
| Q8_0 (768d) | 68,70 | 68,70 |
| Q4_0 (768d) | 67,99 | 67,99 |
* Karışık duyarlılık, yerleştirme, ileri besleme ve projeksiyon katmanları için int4, dikkat için ise int8 ile kanal başına nicemlemeyi ifade eder (e4_a8_f4_p4).
İstem Talimatları
EmbeddingGemma, giriş dizelerinin başına eklenen istemleri kullanarak çeşitli kullanım alanları (ör. doküman alma, soru yanıtlama ve gerçeklik doğrulama) veya belirli giriş türleri (sorgu ya da doküman) için optimize edilmiş gömmeler oluşturabilir.
Sorgu istemleri task: {task description} | query: biçimindedir. Görev açıklaması, kullanım alanına göre değişir. Varsayılan görev açıklaması search result şeklindedir. Belge tarzı istemler, başlığın none (varsayılan) veya belgenin gerçek başlığı olduğu title: {title | "none"} | text: biçimini kullanır. Varsa başlık eklemenin, doküman istemlerinde model performansını artıracağını ancak manuel biçimlendirme gerektirebileceğini unutmayın.
Kullanım alanınıza ve giriş verisi türünüze göre aşağıdaki istemleri kullanın. Bunlar, tercih ettiğiniz modelleme çerçevesindeki EmbeddingGemma yapılandırmasında zaten mevcut olabilir.
Use Case (görev türü numaralandırması) |
Açıklamalar |
Önerilen İstem |
|---|---|---|
Alma (Sorgu) |
Doküman araması veya bilgi alma için optimize edilmiş yerleştirmeler oluşturmak üzere kullanılır. |
task: search result | query: {content} |
Alma (Doküman) |
title: {title | "none"} | text: {content} |
|
Soru yanıtlama |
task: question answering | query: {content} |
|
Doğruluk Kontrolü |
task: fact checking | query: {content} |
|
Sınıflandırma |
Metinleri önceden ayarlanmış etiketlere göre sınıflandırmak için optimize edilmiş yerleştirmeler oluşturmak üzere kullanılır. |
task: classification | query: {content} |
Kümeleme |
Metinleri benzerliklerine göre kümelemek için optimize edilmiş gömmeler oluşturmak üzere kullanılır. |
task: clustering | query: {content} |
Semantik Benzerlik |
Metin benzerliğini değerlendirmek için optimize edilmiş yerleştirmeler oluşturmak üzere kullanılır. Bu özellik, alma kullanım alanları için tasarlanmamıştır. |
task: sentence similarity | query: {content} |
Kod Alma |
Bir diziyi sırala veya bağlı bir listeyi ters çevir gibi doğal dil sorgusuna dayalı bir kod bloğunu almak için kullanılır. Kod bloklarının yerleştirmeleri, retrieval_document kullanılarak hesaplanır. |
task: code retrieval | query: {content} |
Kullanım ve Sınırlamalar
Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.
Kullanım Amacı
Açık gömme modelleri, çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirme sürecinde dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.
- Semantik Benzerlik: Metin benzerliğini değerlendirmek için optimize edilmiş gömmeler (ör. öneri sistemleri ve kopya algılama)
- Sınıflandırma: Metinleri önceden ayarlanmış etiketlere (ör. duygu analizi ve spam algılama) göre sınıflandırmak için optimize edilmiş gömmeler
- Kümeleme: Metinleri benzerliklerine göre (ör. belge düzenleme, pazar araştırması ve anomali algılama) kümelemek için optimize edilmiş gömmeler
Alma
- Belge: Makaleleri, kitapları veya web sayfalarını arama için dizine ekleme gibi belge araması için optimize edilmiş gömmeler
- Sorgu: Özel arama gibi genel arama sorguları için optimize edilmiş gömmeler
- Kod Sorgusu: Kod önerileri ve arama gibi doğal dil sorgularına dayalı kod bloklarının alınması için optimize edilmiş gömmeler
Soru Yanıtlama: Soru yanıtlama sistemindeki sorular için yerleştirmeler. Bu yerleştirmeler, soruyu yanıtlayan belgeleri (ör. sohbet kutusu) bulmak üzere optimize edilmiştir.
Doğruluk Kontrolü: Doğrulanması gereken ifadeler için yerleştirmeler. İfadeyi destekleyen veya çürüten kanıtlar içeren belgelerin (ör. otomatik doğruluk kontrolü sistemleri) alınması için optimize edilmiştir.
Sınırlamalar
Eğitim Verileri
- Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
- Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde ele alabileceği konu alanlarını belirler.
Dil belirsizliği ve nüans
- Doğal dil, doğası gereği karmaşıktır. Modeller, ince ayrıntıları, alaycı ifadeleri veya mecazlı dili anlamakta zorlanabilir.
Etik Değerlendirmeler ve Riskler
Belirlenen riskler ve azaltma yöntemleri:
- Önyargıların devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri, inceleme uzmanı incelemesi kullanılarak) ve önyargı giderme tekniklerinin araştırılması önerilir.
- Kötü amaçlı kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, yerleştirmelerin kötü amaçlı kullanımını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitim kaynakları ve bildirme mekanizmaları sağlanır. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda belirtilmiştir.
- Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik düzenlemelerine uymaları önerilir.
Avantajları
Bu model ailesi, yayınlandığı sırada benzer boyutlu modellere kıyasla sorumlu yapay zeka geliştirme için baştan tasarlanmış yüksek performanslı açık yerleştirme modeli uygulamaları sunar. Bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanan bu modeller, benzer büyüklükteki diğer açık model alternatiflerine göre üstün performans göstermiştir.