صفحه مدل : EmbeddingGemma
منابع و مستندات فنی :
شرایط استفاده : شرایط
نویسنده : Google DeepMind
اطلاعات مدل
شرح خلاصه و تعریف مختصر ورودی ها و خروجی ها.
توضیحات
EmbeddingGemma یک پارامتر 300M است که برای اندازه آن پیشرفته است، مدل جاسازی باز از Google، ساخته شده از Gemma 3 (با مقدار دهی اولیه T5Gemma) و همان تحقیق و فناوری مورد استفاده برای ایجاد مدل های Gemini. EmbeddingGemma نمایش های برداری متن را تولید می کند و آن را برای کارهای جستجو و بازیابی، از جمله طبقه بندی، خوشه بندی، و جستجوی تشابه معنایی مناسب می کند. این مدل با داده ها در بیش از 100 زبان گفتاری آموزش داده شده است.
اندازه کوچک و تمرکز روی دستگاه امکان استقرار در محیطهایی با منابع محدود مانند تلفنهای همراه، لپتاپها یا رایانههای رومیزی را فراهم میکند، دسترسی به مدلهای پیشرفته هوش مصنوعی را دموکراتیک میکند و به تقویت نوآوری برای همه کمک میکند.
برای جزئیات فنی بیشتر، به مقاله ما مراجعه کنید: EmbeddingGemma: نمایشهای متنی قدرتمند و سبک .
ورودی ها و خروجی ها
- ورودی: - رشته متنی، مانند سؤال، درخواست یا سندی که قرار است جاسازی شود
- حداکثر طول متن ورودی 2K
 
- خروجی: - نمایش بردار عددی داده های متنی ورودی
- اندازه ابعاد تعبیه خروجی 768، با گزینه های کوچکتر (512، 256، یا 128) از طریق آموزش بازنمایی Matryoshka (MRL). MRL به کاربران این امکان را می دهد که تعبیه خروجی سایز 768 را به اندازه دلخواه خود کوتاه کنند و سپس برای نمایش کارآمد و دقیق مجدداً عادی سازی کنند.
 
نقل قول
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
داده های مدل
مجموعه داده های آموزشی
این مدل بر روی مجموعه داده ای از داده های متنی آموزش داده شده است که شامل منابع بسیار متنوعی است که در مجموع حدود 320 میلیارد توکن است. در اینجا مولفه های کلیدی وجود دارد:
- اسناد وب : مجموعه متنوعی از متن وب تضمین می کند که مدل در معرض طیف گسترده ای از سبک ها، موضوعات و واژگان زبانی قرار می گیرد. مجموعه داده آموزشی شامل محتوا به بیش از 100 زبان است.
- کد و اسناد فنی : قرار دادن مدل در معرض کد و مستندات فنی به آن کمک می کند تا ساختار و الگوهای زبان های برنامه نویسی و محتوای علمی تخصصی را بیاموزد که درک آن از کد و سوالات فنی را بهبود می بخشد.
- داده های ترکیبی و خاص : آموزش ترکیبی داده ها به آموزش مهارت های خاص مدل کمک می کند. این شامل دادههای تنظیمشده برای کارهایی مانند بازیابی اطلاعات، طبقهبندی، و تجزیه و تحلیل احساسات است که به تنظیم دقیق عملکرد آن برای برنامههای جاسازی رایج کمک میکند.
ترکیبی از این منابع داده متنوع برای آموزش یک مدل جاسازی چندزبانه قدرتمند که می تواند طیف گسترده ای از وظایف مختلف و قالب های داده را مدیریت کند، بسیار مهم است.
پیش پردازش داده ها
در اینجا روش های کلیدی تمیز کردن و فیلتر کردن داده ها برای داده های آموزشی اعمال می شود:
- فیلتر CSAM: فیلتر شدید CSAM (مواد آزار جنسی کودکان) در مراحل مختلف در فرآیند آمادهسازی دادهها اعمال شد تا از حذف محتوای مضر و غیرقانونی اطمینان حاصل شود.
- فیلتر داده های حساس: به عنوان بخشی از ایمن و قابل اعتماد ساختن مدل های از پیش آموزش دیده Gemma، از تکنیک های خودکار برای فیلتر کردن اطلاعات شخصی خاص و سایر داده های حساس از مجموعه های آموزشی استفاده شد.
- روشهای اضافی: فیلتر بر اساس کیفیت و ایمنی محتوا مطابق با خطمشیهای ما .
توسعه مدل
سخت افزار
EmbeddingGemma با استفاده از آخرین نسل سخت افزار Tensor Processing Unit (TPU) (TPUv5e) آموزش داده شده است، برای جزئیات بیشتر به کارت مدل Gemma 3 مراجعه کنید.
نرم افزار
آموزش با استفاده از مسیرهای JAX و ML انجام شد. برای جزئیات بیشتر به کارت مدل Gemma 3 مراجعه کنید.
ارزیابی
نتایج محک
این مدل در برابر مجموعه بزرگی از مجموعه دادهها و معیارهای مختلف برای پوشش جنبههای مختلف درک متن مورد ارزیابی قرار گرفت.
ایست بازرسی کامل
| MTEB (چند زبانه، نسخه 2) | ||
|---|---|---|
| ابعاد | میانگین (وظیفه) | میانگین (TaskType) | 
| 768d | 61.15 | 54.31 | 
| 512d | 60.71 | 53.89 | 
| 256d | 59.68 | 53.01 | 
| 128d | 58.23 | 51.77 | 
| MTEB (انگلیسی، نسخه 2) | ||
|---|---|---|
| ابعاد | میانگین (وظیفه) | میانگین (TaskType) | 
| 768d | 69.67 | 65.11 | 
| 512d | 69.18 | 64.59 | 
| 256d | 68.37 | 64.02 | 
| 128d | 66.66 | 62.70 | 
| MTEB (کد، نسخه 1) | ||
|---|---|---|
| ابعاد | میانگین (وظیفه) | میانگین (TaskType) | 
| 768d | 68.76 | 68.76 | 
| 512d | 68.48 | 68.48 | 
| 256d | 66.74 | 66.74 | 
| 128d | 62.96 | 62.96 | 
ایست های بازرسی QAT
| MTEB (چند زبانه، نسخه 2) | ||
|---|---|---|
| پیکربندی کوانت (بعدی) | میانگین (وظیفه) | میانگین (TaskType) | 
| دقت ترکیبی* (768d) | 60.69 | 53.82 | 
| Q8_0 (768d) | 60.93 | 53.95 | 
| Q4_0 (768d) | 60.62 | 53.61 | 
| MTEB (انگلیسی، نسخه 2) | ||
|---|---|---|
| پیکربندی کوانت (بعدی) | میانگین (وظیفه) | میانگین (TaskType) | 
| دقت ترکیبی* (768d) | 69.32 | 64.82 | 
| Q8_0 (768d) | 69.49 | 64.84 | 
| Q4_0 (768d) | 69.31 | 64.65 | 
| MTEB (کد، نسخه 1) | ||
|---|---|---|
| پیکربندی کوانت (بعدی) | میانگین (وظیفه) | میانگین (TaskType) | 
| دقت ترکیبی* (768d) | 68.03 | 68.03 | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768d) | 67.99 | 67.99 | 
* دقت مختلط به کوانتیزاسیون هر کانال با int4 برای جاسازیها، فید فوروارد و لایههای طرحریزی و int8 برای توجه (e4_a8_f4_p4) اشاره دارد.
دستورالعمل های سریع
EmbeddingGemma میتواند جاسازیهای بهینهسازی شده را برای موارد استفاده مختلف ایجاد کند - مانند بازیابی سند، پاسخ به سؤال و تأیید واقعیت - یا برای انواع ورودی خاص - اعم از یک پرس و جو یا یک سند - با استفاده از اعلانهایی که به رشتههای ورودی اضافه میشوند.
 درخواستهای پرسوجو task: {task description} | query: جایی که شرح کار بر اساس موارد استفاده متفاوت است و شرح کار پیش فرض search result است. درخواستهای سبک سند title: {title | "none"} | text: که در آن عنوان یا none (پیشفرض) یا عنوان واقعی سند است. توجه داشته باشید که ارائه عنوان، در صورت وجود، عملکرد مدل را برای درخواستهای سند بهبود میبخشد، اما ممکن است نیاز به قالببندی دستی داشته باشد.
از دستورات زیر بر اساس استفاده و نوع داده ورودی خود استفاده کنید. اینها ممکن است از قبل در پیکربندی EmbeddingGemma در چارچوب مدلسازی انتخابی شما موجود باشند.
| Use Case (نوع وظیفه enum) | توضیحات | درخواست توصیه شده | 
|---|---|---|
| بازیابی (پرس و جو) | برای ایجاد جاسازی هایی که برای جستجوی اسناد یا بازیابی اطلاعات بهینه شده اند استفاده می شود | وظیفه: نتیجه جستجو | پرس و جو: {content} | 
| بازیابی (سند) | عنوان: {عنوان | "هیچ"} | متن: {content} | |
| جواب سوال | وظیفه: پاسخگویی به سوال | پرس و جو: {content} | |
| راستی آزمایی واقعیت | وظیفه: بررسی واقعیت | پرس و جو: {content} | |
| طبقه بندی | برای تولید جاسازی هایی استفاده می شود که برای طبقه بندی متون بر اساس برچسب های از پیش تعیین شده بهینه شده اند | وظیفه: طبقه بندی | پرس و جو: {content} | 
| خوشه بندی | برای ایجاد جاسازی هایی که برای خوشه بندی متون بر اساس شباهت هایشان بهینه شده اند استفاده می شود | وظیفه: خوشه بندی | پرس و جو: {content} | 
| تشابه معنایی | برای ایجاد جاسازی هایی که برای ارزیابی شباهت متن بهینه شده اند استفاده می شود. این برای موارد استفاده بازیابی در نظر گرفته نشده است. | وظیفه: تشابه جمله | پرس و جو: {content} | 
| بازیابی کد | برای بازیابی یک بلوک کد بر اساس یک جستار زبان طبیعی، مانند مرتب کردن یک آرایه یا معکوس کردن یک لیست پیوندی استفاده می شود. جاسازی بلوک های کد با استفاده از retrieval_document محاسبه می شود. | وظیفه: بازیابی کد | پرس و جو: {content} | 
استفاده و محدودیت ها
این مدل ها محدودیت های خاصی دارند که کاربران باید از آن ها آگاه باشند.
استفاده در نظر گرفته شده
مدلهای تعبیهشده باز طیف وسیعی از کاربردها در صنایع و حوزههای مختلف دارند. فهرست زیر از کاربردهای بالقوه جامع نیست. هدف این فهرست ارائه اطلاعات زمینه ای در مورد موارد استفاده احتمالی است که سازندگان مدل به عنوان بخشی از آموزش و توسعه مدل در نظر گرفته اند.
- تشابه معنایی : جاسازیهایی که برای ارزیابی شباهت متن، مانند سیستمهای توصیه و تشخیص تکراری بهینه شدهاند.
- طبقهبندی : جاسازیهای بهینهسازی شده برای طبقهبندی متون بر اساس برچسبهای از پیش تعیین شده، مانند تجزیه و تحلیل احساسات و تشخیص هرزنامه
- خوشهبندی : جاسازیهایی که برای خوشهبندی متون بر اساس شباهتهایشان، مانند سازماندهی اسناد، تحقیقات بازار، و تشخیص ناهنجاریها بهینه شدهاند.
- بازیابی - سند : جاسازیهایی که برای جستجوی اسناد بهینه شدهاند، مانند فهرستبندی مقالات، کتابها یا صفحات وب برای جستجو
- Query : جاسازیهایی که برای عبارتهای جستجوی عمومی، مانند جستجوی سفارشی، بهینه شدهاند
- Query کد : جاسازیهایی که برای بازیابی بلوکهای کد بر اساس جستارهای زبان طبیعی، مانند پیشنهادات کد و جستجو بهینه شدهاند.
 
- پاسخ به سؤال : جاسازیهایی برای سؤالات در یک سیستم پاسخگویی سؤال، بهینه شده برای یافتن اسنادی که به سؤال پاسخ میدهند، مانند جعبه گفتگو. 
- راستیآزمایی واقعیت : جاسازیهایی برای اظهاراتی که نیاز به تأیید دارند، بهینهسازی شده برای بازیابی اسنادی که حاوی شواهدی هستند که بیانیه را تأیید یا رد میکنند، مانند سیستمهای خودکار بررسی واقعیت. 
محدودیت ها
- داده های آموزشی - کیفیت و تنوع داده های آموزشی به طور قابل توجهی بر قابلیت های مدل تأثیر می گذارد. سوگیری یا شکاف در داده های آموزشی می تواند منجر به محدودیت در پاسخ های مدل شود.
- دامنه مجموعه داده آموزشی حوزه های موضوعی را مشخص می کند که مدل می تواند به طور موثر اداره کند.
 
- ابهام زبان و تفاوت های ظریف - زبان طبیعی ذاتاً پیچیده است. مدل ها ممکن است برای درک نکات ظریف ظریف، طعنه یا زبان مجازی تلاش کنند.
 
ملاحظات اخلاقی و خطرات
خطرات شناسایی شده و اقدامات کاهشی:
- تداوم سوگیری ها : انجام نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش در تکنیک های تعصب زدایی در طول آموزش مدل، تنظیم دقیق و سایر موارد استفاده تشویق می شود.
- استفاده نادرست برای اهداف مخرب : محدودیت های فنی و آموزش توسعه دهندگان و کاربر نهایی می تواند به کاهش برنامه های مخرب جاسازی ها کمک کند. منابع آموزشی و مکانیسمهای گزارشدهی برای کاربران برای پرچمگذاری سوءاستفاده ارائه شده است. استفاده های ممنوع از مدل های Gemma در خط مشی استفاده ممنوع Gemma مشخص شده است.
- نقض حریم خصوصی : مدل ها بر روی داده های فیلتر شده برای حذف برخی از اطلاعات شخصی و سایر داده های حساس آموزش داده شدند. توسعه دهندگان تشویق می شوند تا با تکنیک های حفظ حریم خصوصی به قوانین حفظ حریم خصوصی پایبند باشند.
مزایا
در زمان عرضه، این خانواده از مدلها، پیادهسازیهای مدل تعبیهشده باز را با کارایی بالا ارائه میکنند که از ابتدا برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدلهای با اندازه مشابه طراحی شدهاند. با استفاده از معیارهای ارزیابی معیار شرح داده شده در این سند، این مدل ها عملکرد برتری نسبت به سایر جایگزین های مدل باز با اندازه مشابه نشان داده اند.