کارت مدل EmbeddingGemma

صفحه مدل : EmbeddingGemma

منابع و مستندات فنی :

شرایط استفاده : شرایط

نویسنده : Google DeepMind

اطلاعات مدل

شرح خلاصه و تعریف مختصر ورودی ها و خروجی ها.

توضیحات

EmbeddingGemma یک پارامتر 300M است که برای اندازه آن پیشرفته است، مدل جاسازی باز از Google، ساخته شده از Gemma 3 (با مقدار دهی اولیه T5Gemma) و همان تحقیق و فناوری مورد استفاده برای ایجاد مدل های Gemini. EmbeddingGemma نمایش های برداری متن را تولید می کند و آن را برای کارهای جستجو و بازیابی، از جمله طبقه بندی، خوشه بندی، و جستجوی تشابه معنایی مناسب می کند. این مدل با داده ها در بیش از 100 زبان گفتاری آموزش داده شده است.

اندازه کوچک و تمرکز روی دستگاه امکان استقرار در محیط‌هایی با منابع محدود مانند تلفن‌های همراه، لپ‌تاپ‌ها یا رایانه‌های رومیزی را فراهم می‌کند، دسترسی به مدل‌های پیشرفته هوش مصنوعی را دموکراتیک می‌کند و به تقویت نوآوری برای همه کمک می‌کند.

برای جزئیات فنی بیشتر، به مقاله ما مراجعه کنید: EmbeddingGemma: نمایش‌های متنی قدرتمند و سبک .

ورودی ها و خروجی ها

  • ورودی:

    • رشته متنی، مانند سؤال، درخواست یا سندی که قرار است جاسازی شود
    • حداکثر طول متن ورودی 2K
  • خروجی:

    • نمایش بردار عددی داده های متنی ورودی
    • اندازه ابعاد تعبیه خروجی 768، با گزینه های کوچکتر (512، 256، یا 128) از طریق آموزش بازنمایی Matryoshka (MRL). MRL به کاربران این امکان را می دهد که تعبیه خروجی سایز 768 را به اندازه دلخواه خود کوتاه کنند و سپس برای نمایش کارآمد و دقیق مجدداً عادی سازی کنند.

نقل قول

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

داده های مدل

مجموعه داده های آموزشی

این مدل بر روی مجموعه داده ای از داده های متنی آموزش داده شده است که شامل منابع بسیار متنوعی است که در مجموع حدود 320 میلیارد توکن است. در اینجا مولفه های کلیدی وجود دارد:

  • اسناد وب : مجموعه متنوعی از متن وب تضمین می کند که مدل در معرض طیف گسترده ای از سبک ها، موضوعات و واژگان زبانی قرار می گیرد. مجموعه داده آموزشی شامل محتوا به بیش از 100 زبان است.
  • کد و اسناد فنی : قرار دادن مدل در معرض کد و مستندات فنی به آن کمک می کند تا ساختار و الگوهای زبان های برنامه نویسی و محتوای علمی تخصصی را بیاموزد که درک آن از کد و سوالات فنی را بهبود می بخشد.
  • داده های ترکیبی و خاص : آموزش ترکیبی داده ها به آموزش مهارت های خاص مدل کمک می کند. این شامل داده‌های تنظیم‌شده برای کارهایی مانند بازیابی اطلاعات، طبقه‌بندی، و تجزیه و تحلیل احساسات است که به تنظیم دقیق عملکرد آن برای برنامه‌های جاسازی رایج کمک می‌کند.

ترکیبی از این منابع داده متنوع برای آموزش یک مدل جاسازی چندزبانه قدرتمند که می تواند طیف گسترده ای از وظایف مختلف و قالب های داده را مدیریت کند، بسیار مهم است.

پیش پردازش داده ها

در اینجا روش های کلیدی تمیز کردن و فیلتر کردن داده ها برای داده های آموزشی اعمال می شود:

  • فیلتر CSAM: فیلتر شدید CSAM (مواد آزار جنسی کودکان) در مراحل مختلف در فرآیند آماده‌سازی داده‌ها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
  • فیلتر داده های حساس: به عنوان بخشی از ایمن و قابل اعتماد ساختن مدل های از پیش آموزش دیده Gemma، از تکنیک های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده های حساس از مجموعه های آموزشی استفاده شد.
  • روش‌های اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خط‌مشی‌های ما .

توسعه مدل

سخت افزار

EmbeddingGemma با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شده است، برای جزئیات بیشتر به کارت مدل Gemma 3 مراجعه کنید.

نرم افزار

آموزش با استفاده از مسیرهای JAX و ML انجام شد. برای جزئیات بیشتر به کارت مدل Gemma 3 مراجعه کنید.

ارزیابی

نتایج محک

این مدل در برابر مجموعه بزرگی از مجموعه داده‌ها و معیارهای مختلف برای پوشش جنبه‌های مختلف درک متن مورد ارزیابی قرار گرفت.

ایست بازرسی کامل

MTEB (چند زبانه، نسخه 2)
ابعاد میانگین (وظیفه) میانگین (TaskType)
768d 61.15 54.31
512d 60.71 53.89
256d 59.68 53.01
128d 58.23 51.77
MTEB (انگلیسی، نسخه 2)
ابعاد میانگین (وظیفه) میانگین (TaskType)
768d 69.67 65.11
512d 69.18 64.59
256d 68.37 64.02
128d 66.66 62.70
MTEB (کد، نسخه 1)
ابعاد میانگین (وظیفه) میانگین (TaskType)
768d 68.76 68.76
512d 68.48 68.48
256d 66.74 66.74
128d 62.96 62.96

ایست های بازرسی QAT

MTEB (چند زبانه، نسخه 2)
پیکربندی کوانت (بعدی) میانگین (وظیفه) میانگین (TaskType)
دقت ترکیبی* (768d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB (انگلیسی، نسخه 2)
پیکربندی کوانت (بعدی) میانگین (وظیفه) میانگین (TaskType)
دقت ترکیبی* (768d) 69.32 64.82
Q8_0 (768d) 69.49 64.84
Q4_0 (768d) 69.31 64.65
MTEB (کد، نسخه 1)
پیکربندی کوانت (بعدی) میانگین (وظیفه) میانگین (TaskType)
دقت ترکیبی* (768d) 68.03 68.03
Q8_0 (768d) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* دقت مختلط به کوانتیزاسیون هر کانال با int4 برای جاسازی‌ها، فید فوروارد و لایه‌های طرح‌ریزی و int8 برای توجه (e4_a8_f4_p4) اشاره دارد.

دستورالعمل های سریع

EmbeddingGemma می‌تواند جاسازی‌های بهینه‌سازی شده را برای موارد استفاده مختلف ایجاد کند - مانند بازیابی سند، پاسخ به سؤال و تأیید واقعیت - یا برای انواع ورودی خاص - اعم از یک پرس و جو یا یک سند - با استفاده از اعلان‌هایی که به رشته‌های ورودی اضافه می‌شوند.

درخواست‌های پرس‌وجو task: {task description} | query: جایی که شرح کار بر اساس موارد استفاده متفاوت است و شرح کار پیش فرض search result است. درخواست‌های سبک سند title: {title | "none"} | text: که در آن عنوان یا none (پیش‌فرض) یا عنوان واقعی سند است. توجه داشته باشید که ارائه عنوان، در صورت وجود، عملکرد مدل را برای درخواست‌های سند بهبود می‌بخشد، اما ممکن است نیاز به قالب‌بندی دستی داشته باشد.

از دستورات زیر بر اساس استفاده و نوع داده ورودی خود استفاده کنید. اینها ممکن است از قبل در پیکربندی EmbeddingGemma در چارچوب مدلسازی انتخابی شما موجود باشند.


Use Case (نوع وظیفه enum)

توضیحات

درخواست توصیه شده

بازیابی (پرس و جو)

برای ایجاد جاسازی هایی که برای جستجوی اسناد یا بازیابی اطلاعات بهینه شده اند استفاده می شود

وظیفه: نتیجه جستجو | پرس و جو: {content}

بازیابی (سند)

عنوان: {عنوان | "هیچ"} | متن: {content}

جواب سوال

وظیفه: پاسخگویی به سوال | پرس و جو: {content}

راستی آزمایی واقعیت

وظیفه: بررسی واقعیت | پرس و جو: {content}

طبقه بندی

برای تولید جاسازی هایی استفاده می شود که برای طبقه بندی متون بر اساس برچسب های از پیش تعیین شده بهینه شده اند

وظیفه: طبقه بندی | پرس و جو: {content}

خوشه بندی

برای ایجاد جاسازی هایی که برای خوشه بندی متون بر اساس شباهت هایشان بهینه شده اند استفاده می شود

وظیفه: خوشه بندی | پرس و جو: {content}

تشابه معنایی

برای ایجاد جاسازی هایی که برای ارزیابی شباهت متن بهینه شده اند استفاده می شود. این برای موارد استفاده بازیابی در نظر گرفته نشده است.

وظیفه: تشابه جمله | پرس و جو: {content}

بازیابی کد

برای بازیابی یک بلوک کد بر اساس یک جستار زبان طبیعی، مانند مرتب کردن یک آرایه یا معکوس کردن یک لیست پیوندی استفاده می شود. جاسازی بلوک های کد با استفاده از retrieval_document محاسبه می شود.

وظیفه: بازیابی کد | پرس و جو: {content}

استفاده و محدودیت ها

این مدل ها محدودیت های خاصی دارند که کاربران باید از آن ها آگاه باشند.

استفاده در نظر گرفته شده

مدل‌های تعبیه‌شده باز طیف وسیعی از کاربردها در صنایع و حوزه‌های مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند.

  • تشابه معنایی : جاسازی‌هایی که برای ارزیابی شباهت متن، مانند سیستم‌های توصیه و تشخیص تکراری بهینه شده‌اند.
  • طبقه‌بندی : جاسازی‌های بهینه‌سازی شده برای طبقه‌بندی متون بر اساس برچسب‌های از پیش تعیین شده، مانند تجزیه و تحلیل احساسات و تشخیص هرزنامه
  • خوشه‌بندی : جاسازی‌هایی که برای خوشه‌بندی متون بر اساس شباهت‌هایشان، مانند سازماندهی اسناد، تحقیقات بازار، و تشخیص ناهنجاری‌ها بهینه شده‌اند.
  • بازیابی

    • سند : جاسازی‌هایی که برای جستجوی اسناد بهینه شده‌اند، مانند فهرست‌بندی مقالات، کتاب‌ها یا صفحات وب برای جستجو
    • Query : جاسازی‌هایی که برای عبارت‌های جستجوی عمومی، مانند جستجوی سفارشی، بهینه شده‌اند
    • Query کد : جاسازی‌هایی که برای بازیابی بلوک‌های کد بر اساس جستارهای زبان طبیعی، مانند پیشنهادات کد و جستجو بهینه شده‌اند.
  • پاسخ به سؤال : جاسازی‌هایی برای سؤالات در یک سیستم پاسخگویی سؤال، بهینه شده برای یافتن اسنادی که به سؤال پاسخ می‌دهند، مانند جعبه گفتگو.

  • راستی‌آزمایی واقعیت : جاسازی‌هایی برای اظهاراتی که نیاز به تأیید دارند، بهینه‌سازی شده برای بازیابی اسنادی که حاوی شواهدی هستند که بیانیه را تأیید یا رد می‌کنند، مانند سیستم‌های خودکار بررسی واقعیت.

محدودیت ها

  • داده های آموزشی

    • کیفیت و تنوع داده های آموزشی به طور قابل توجهی بر قابلیت های مدل تأثیر می گذارد. سوگیری یا شکاف در داده های آموزشی می تواند منجر به محدودیت در پاسخ های مدل شود.
    • دامنه مجموعه داده آموزشی حوزه های موضوعی را مشخص می کند که مدل می تواند به طور موثر اداره کند.
  • ابهام زبان و تفاوت های ظریف

    • زبان طبیعی ذاتاً پیچیده است. مدل ها ممکن است برای درک نکات ظریف ظریف، طعنه یا زبان مجازی تلاش کنند.

ملاحظات اخلاقی و خطرات

خطرات شناسایی شده و اقدامات کاهشی:

  • تداوم سوگیری ها : انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
  • استفاده نادرست برای اهداف مخرب : محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب جاسازی ها کمک کند. منابع آموزشی و مکانیسم‌های گزارش‌دهی برای کاربران برای پرچم‌گذاری سوءاستفاده ارائه شده است. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
  • نقض حریم خصوصی : مدل ها بر روی داده های فیلتر شده برای حذف برخی از اطلاعات شخصی و سایر داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.

مزایا

در زمان عرضه، این خانواده از مدل‌ها، پیاده‌سازی‌های مدل تعبیه‌شده باز را با کارایی بالا ارائه می‌کنند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدل‌های با اندازه مشابه طراحی شده‌اند. با استفاده از معیارهای ارزیابی معیار شرح داده شده در این سند، این مدل ها عملکرد برتری نسبت به سایر جایگزین های مدل باز با اندازه مشابه نشان داده اند.