صفحة النموذج: EmbeddingGemma
المراجع والمستندات الفنية:
بنود الاستخدام: البنود
المؤلفون: Google DeepMind
معلومات حول الطراز
وصف موجز وتعريف مختصر للمدخلات والمخرجات
الوصف
EmbeddingGemma هو نموذج مفتوح لإنشاء تضمينات، ويضم 300 مليون مَعلمة، وهو الأحدث من نوعه من Google، وقد تم إنشاؤه باستخدام Gemma 3 (مع تهيئة T5Gemma) والأبحاث والتكنولوجيا نفسها المستخدَمة في إنشاء نماذج Gemini. تنتج EmbeddingGemma تمثيلات متّجهة للنصوص، ما يجعلها مناسبة تمامًا لمهام البحث والاسترجاع، بما في ذلك التصنيف والتجميع والبحث عن التشابه الدلالي. تم تدريب هذا النموذج باستخدام بيانات بأكثر من 100 لغة محكية.
وبفضل حجمها الصغير وإمكانية تشغيلها على الأجهزة، يمكن نشرها في بيئات ذات موارد محدودة، مثل الهواتف الجوّالة أو أجهزة الكمبيوتر المحمولة أو أجهزة الكمبيوتر المكتبية، ما يتيح للجميع الاستفادة من أحدث نماذج الذكاء الاصطناعي ويساعد في تعزيز الابتكار.
لمزيد من التفاصيل الفنية، يُرجى الرجوع إلى ورقتنا البحثية: EmbeddingGemma: Powerful and Lightweight Text Representations.
المدخلات والمخرجات
الإدخال:
- سلسلة نصية، مثل سؤال أو طلب أو مستند سيتم تضمينه
 - الحد الأقصى لطول سياق الإدخال هو 2000 رمز
 
الناتج:
- تمثيلات متجهة رقمية لبيانات النص المدخل
 - حجم تضمين الناتج 768، مع توفّر خيارات أصغر (512 أو 256 أو 128) من خلال Matryoshka Representation Learning (MRL). تتيح MRL للمستخدمين اقتطاع التضمين الناتج بحجم 768 إلى الحجم المطلوب ثم إعادة التسوية للحصول على تمثيل فعال ودقيق.
 
معلومات الكتاب
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
بيانات النموذج
مجموعة بيانات التدريب
تم تدريب هذا النموذج على مجموعة بيانات نصية تتضمّن مجموعة متنوعة من المصادر يبلغ إجماليها حوالي 320 مليار رمز مميز. في ما يلي المكوّنات الرئيسية:
- مستندات الويب: تضمن المجموعة المتنوعة من النصوص على الويب تعرّض النموذج لمجموعة واسعة من الأساليب اللغوية والمواضيع والمفردات. تتضمّن مجموعة بيانات التدريب محتوًى بأكثر من 100 لغة.
 - الرموز البرمجية والمستندات الفنية: إنّ تعريض النموذج للرموز البرمجية والمستندات الفنية يساعده في تعلُّم بنية وأنماط لغات البرمجة والمحتوى العلمي المتخصّص، ما يحسّن فهمه للرموز البرمجية والأسئلة الفنية.
 - البيانات الاصطناعية والبيانات الخاصة بمهمة معيّنة: تساعد بيانات التدريب الاصطناعية في تعليم النموذج مهارات معيّنة. ويشمل ذلك بيانات منسّقة لمهام مثل استرجاع المعلومات والتصنيف وتحليل المشاعر، ما يساعد في تحسين أدائه لتطبيقات التضمين الشائعة.
 
إنّ الجمع بين مصادر البيانات المتنوّعة هذه أمر بالغ الأهمية لتدريب نموذج تضمين قوي ومتعدد اللغات يمكنه التعامل مع مجموعة واسعة من المهام المختلفة وتنسيقات البيانات.
المعالجة المُسبقة للبيانات
في ما يلي طرق تنظيف البيانات وفلترتها الرئيسية التي يتم تطبيقها على بيانات التدريب:
- فلترة مواد الاعتداء الجنسي على الأطفال: تم تطبيق فلترة صارمة لمواد الاعتداء الجنسي على الأطفال في مراحل متعددة من عملية إعداد البيانات لضمان استبعاد المحتوى الضار وغير القانوني.
 - فلترة البيانات الحسّاسة: في إطار سعينا إلى جعل نماذج Gemma المدرَّبة مسبقًا آمنة وموثوقة، استخدمنا تقنيات آلية لفلترة بعض المعلومات الشخصية وغيرها من البيانات الحسّاسة من مجموعات التدريب.
 - طُرق إضافية: الفلترة استنادًا إلى جودة المحتوى وأمانه بما يتوافق مع سياساتنا
 
تطوير النموذج
أجهزة
تم تدريب EmbeddingGemma باستخدام أحدث جيل من أجهزة وحدة معالجة الموتّرات (TPU) (TPUv5e)، وللمزيد من التفاصيل، يُرجى الرجوع إلى بطاقة نموذج Gemma 3.
البرامج
تم التدريب باستخدام JAX وML Pathways. لمزيد من التفاصيل، يُرجى الرجوع إلى بطاقة نموذج Gemma 3.
تقييم
نتائج قياس الأداء
تم تقييم النموذج باستخدام مجموعة كبيرة من مجموعات البيانات والمقاييس المختلفة لتغطية جوانب مختلفة من فهم النصوص.
نقطة مرجعية بدقة كاملة
| MTEB (متعدد اللغات، الإصدار 2) | ||
|---|---|---|
| عدد الأبعاد | المتوسط (المَهمة) | المتوسط (TaskType) | 
| 768d | 61.15 | 54.31 | 
| 512 يومًا | 60.71 | 53.89 | 
| 256 يومًا | 59.68 | 53.01 | 
| 128 يومًا | 58.23 | 51.77 | 
| MTEB (الإنجليزية، الإصدار 2) | ||
|---|---|---|
| عدد الأبعاد | المتوسط (المَهمة) | المتوسط (TaskType) | 
| 768d | 69.67 | 65.11 | 
| 512 يومًا | 69.18 | 64.59 | 
| 256 يومًا | 68.37 | 64.02 | 
| 128 يومًا | 66.66 | 62.70 | 
| MTEB (الرمز، الإصدار 1) | ||
|---|---|---|
| عدد الأبعاد | المتوسط (المَهمة) | المتوسط (TaskType) | 
| 768d | 68.76 | 68.76 | 
| 512 يومًا | 68.48 | 68.48 | 
| 256 يومًا | 66.74 | 66.74 | 
| 128 يومًا | 62.96 | 62.96 | 
نقاط التحقّق من جودة الترجمة
| MTEB (متعدد اللغات، الإصدار 2) | ||
|---|---|---|
| إعداد الكمية (عدد الأبعاد) | المتوسط (المَهمة) | المتوسط (TaskType) | 
| الدقة المختلطة* (768 يومًا) | 60.69 | 53.82 | 
| Q8_0 (768d) | 60.93 | 53.95 | 
| Q4_0 (768d) | 60.62 | 53.61 | 
| MTEB (الإنجليزية، الإصدار 2) | ||
|---|---|---|
| إعداد الكمية (عدد الأبعاد) | المتوسط (المَهمة) | المتوسط (TaskType) | 
| الدقة المختلطة* (768 يومًا) | 69.32 | 64.82 | 
| Q8_0 (768d) | 69.49 | 64.84 | 
| Q4_0 (768d) | 69.31 | 64.65 | 
| MTEB (الرمز، الإصدار 1) | ||
|---|---|---|
| إعداد الكمية (عدد الأبعاد) | المتوسط (المَهمة) | المتوسط (TaskType) | 
| الدقة المختلطة* (768 يومًا) | 68.03 | 68.03 | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768d) | 67.99 | 67.99 | 
* تشير الدقة المختلطة إلى التكميم لكل قناة باستخدام int4 للتضمينات، وطبقات التغذية الأمامية والإسقاط، وint8 للانتباه (e4_a8_f4_p4).
تعليمات الطلب
يمكن أن تنشئ EmbeddingGemma عمليات تضمين محسّنة لمختلف حالات الاستخدام، مثل استرجاع المستندات والإجابة عن الأسئلة والتحقّق من الحقائق، أو لأنواع إدخال معيّنة، سواء كان طلب بحث أو مستند، وذلك باستخدام طلبات يتم إضافتها قبل سلاسل الإدخال.
تتّبع طلبات البحث النموذج task: {task description} | query: حيث يختلف وصف المهمة حسب حالة الاستخدام، ويكون وصف المهمة التلقائي هو search result. تتّبع الطلبات التي تتضمّن مستندات الشكل
title: {title | "none"} | text: حيث يكون العنوان إما none (القيمة
الافتراضية) أو العنوان الفعلي للمستند. يُرجى العِلم أنّ توفير عنوان، إذا كان متاحًا، سيحسّن أداء النموذج في ما يتعلّق بطلبات المستندات، ولكن قد يتطلّب ذلك تنسيقًا يدويًا.
استخدِم الطلبات التالية استنادًا إلى حالة الاستخدام ونوع البيانات المُدخَلة. وقد تكون هذه الخيارات متاحة في إعدادات EmbeddingGemma ضمن إطار عمل النمذجة الذي تختاره.
حالة الاستخدام (تعداد نوع المهمة)  | 
      الأوصاف  | 
      طلب مقترَح  | 
    
|---|---|---|
الاسترجاع (طلب البحث)  | 
      تُستخدَم لإنشاء تضمينات محسّنة للبحث عن المستندات أو استرداد المعلومات  | 
      task: search result | query: {content}  | 
    
الاسترجاع (المستند)  | 
      title: {title | "none"} | text: {content}  | 
    |
الإجابة عن الأسئلة  | 
      المهمة: الإجابة عن الأسئلة | طلب البحث: {content}  | 
    |
التحقّق من صحة المعلومات  | 
      المهمة: التحقّق من صحة الأخبار | طلب البحث: {content}  | 
    |
التصنيف  | 
      تُستخدَم لإنشاء تضمينات محسّنة لتصنيف النصوص وفقًا لتصنيفات مُعدّة مسبقًا  | 
      task: classification | query: {content}  | 
    
التجميع العنقودي  | 
      يُستخدَم لإنشاء تضمينات محسَّنة لتجميع النصوص استنادًا إلى أوجه التشابه بينها  | 
      المهمة: التجميع العنقودي | طلب البحث: {content}  | 
    
التشابه الدلالي  | 
      تُستخدَم لإنشاء تضمينات محسّنة لتقييم التشابه بين النصوص. ولا يُقصد به حالات استخدام الاسترجاع.  | 
      المهمة: التشابه بين الجمل | طلب البحث: {content}  | 
    
استرداد الرمز  | 
      تُستخدَم لاسترداد مجموعة رموز استنادًا إلى طلب بلغة طبيعية، مثل ترتيب مصفوفة أو عكس قائمة مرتبطة. يتم احتساب تضمينات أجزاء الرمز البرمجي باستخدام retrieval_document.  | 
      المهمة: استرداد الرمز | طلب البحث: {content}  | 
    
الاستخدام والقيود
وتتضمّن هذه النماذج بعض القيود التي يجب أن يكون المستخدمون على دراية بها.
الاستخدام المقصود
تتوفّر مجموعة واسعة من التطبيقات لنماذج التضمين المفتوحة المصدر في مختلف الصناعات والمجالات. إنّ قائمة الاستخدامات المحتملة التالية ليست شاملة. الغرض من هذه القائمة هو تقديم معلومات سياقية حول حالات الاستخدام المحتملة التي أخذها منشئو النماذج في الاعتبار كجزء من تدريب النماذج وتطويرها.
- التشابه الدلالي: عمليات التضمين المحسّنة لتقييم التشابه بين النصوص، مثل أنظمة الاقتراحات ورصد المحتوى المكرّر
 - التصنيف: تضمين متجهات محسّنة لتصنيف النصوص وفقًا لتسميات محدّدة مسبقًا، مثل تحليل المشاعر ورصد الرسائل غير المرغوب فيها
 - التجميع: عمليات التضمين المحسَّنة لتجميع النصوص استنادًا إلى أوجه التشابه بينها، مثل تنظيم المستندات وأبحاث السوق ورصد الحالات الشاذة
 الاسترجاع
- المستند: عمليات التضمين المحسّنة للبحث عن المستندات، مثل فهرسة المقالات أو الكتب أو صفحات الويب للبحث
 - طلب البحث: عمليات التضمين المحسَّنة لطلبات البحث العامة، مثل البحث المخصّص
 - طلب البحث عن الرموز البرمجية: عمليات التضمين المحسَّنة لاسترجاع مجموعات الرموز البرمجية استنادًا إلى طلبات البحث باللغة الطبيعية، مثل اقتراحات الرموز البرمجية والبحث
 
الإجابة عن الأسئلة: عمليات التضمين للأسئلة في نظام الإجابة عن الأسئلة، وهي محسّنة للعثور على المستندات التي تجيب عن السؤال، مثل مربّع الدردشة.
التحقّق من صحة الأخبار: تضمين بيانات حول الجُمل التي يجب التحقّق من صحتها، مع تحسينها لاسترداد المستندات التي تتضمّن أدلة تؤيّد الجملة أو تدحضها، مثل أنظمة التحقّق الآلي من صحة الأخبار
القيود
بيانات التدريب
- تؤثر جودة بيانات التدريب وتنوّعها بشكل كبير في إمكانات النموذج. قد تؤدي الانحيازات أو الفجوات في بيانات التدريب إلى قيود في ردود النموذج.
 - يحدّد نطاق مجموعة بيانات التدريب مجالات المواضيع التي يمكن للنموذج التعامل معها بفعالية.
 
غموض اللغة ودقتها
- اللغة الطبيعية معقّدة بطبيعتها. قد تواجه النماذج صعوبة في فهم الفروق الدقيقة أو السخرية أو اللغة المجازية.
 
الاعتبارات الأخلاقية والمخاطر
المخاطر المحدّدة وإجراءات التخفيف منها:
- إدامة التحيزات: ننصحك بإجراء مراقبة مستمرة (باستخدام مقاييس التقييم والمراجعة البشرية) واستكشاف تقنيات إزالة التحيز أثناء تدريب النموذج وضبطه الدقيق وحالات الاستخدام الأخرى.
 - إساءة الاستخدام لأغراض ضارة: يمكن أن تساعد القيود الفنية وتثقيف المطوّرين والمستخدمين النهائيين في الحد من التطبيقات الضارة لعمليات التضمين. يتم توفير مراجع تعليمية وآليات إبلاغ للمستخدمين للإشارة إلى حالات إساءة الاستخدام. يتم توضيح الاستخدامات المحظورة لنماذج Gemma في سياسة الاستخدام المحظور لنماذج Gemma.
 - انتهاكات الخصوصية: تم تدريب النماذج على بيانات تمت فلترتها لإزالة بعض المعلومات الشخصية وغيرها من البيانات الحساسة. ننصح المطوّرين بالالتزام بلوائح الخصوصية باستخدام تقنيات تحافظ على الخصوصية.
 
المزايا
عند طرح هذه المجموعة من النماذج، كانت توفّر عمليات تنفيذ عالية الأداء لنموذج التضمين المفتوح المصدر، وقد تم تصميمها من البداية لتطوير الذكاء الاصطناعي المسؤول، وذلك مقارنةً بالنماذج ذات الأحجام المماثلة. باستخدام مقاييس تقييم الأداء الموضّحة في هذا المستند، أظهرت هذه النماذج أداءً أفضل من البدائل الأخرى المفتوحة المصدر ذات الحجم المماثل.