דף המודל: EmbeddingGemma
משאבים ומסמכים טכניים:
תנאים והגבלות: תנאים
מחברים: Google DeepMind
פרטי הדגם
תיאור קצר והגדרה תמציתית של הקלטים והפלטים.
תיאור
EmbeddingGemma הוא מודל הטמעה פתוח של Google עם 300 מיליון פרמטרים, שהוא המתקדם ביותר בגודל שלו. הוא מבוסס על Gemma 3 (עם אתחול T5Gemma) ועל אותה טכנולוגיה ומחקר ששימשו ליצירת מודלים של Gemini. EmbeddingGemma יוצר ייצוגים וקטוריים של טקסט, ולכן הוא מתאים מאוד למשימות חיפוש ואחזור, כולל סיווג, אשכול וחיפוש של דמיון סמנטי. המודל הזה אומן על נתונים ביותר מ-100 שפות מדוברות.
הגודל הקטן וההתמקדות במכשיר מאפשרים פריסה בסביבות עם משאבים מוגבלים, כמו טלפונים ניידים, מחשבים ניידים או מחשבים, ובכך מאפשרים לכולם גישה למודלים מתקדמים של AI ומקדמים חדשנות.
פרטים טכניים נוספים זמינים במאמר שלנו בנושא: EmbeddingGemma: Powerful and Lightweight Text Representations
קלט ופלט
קלט:
- מחרוזת טקסט, כמו שאלה, הנחיה או מסמך להטמעה
- אורך ההקשר המקסימלי של הקלט הוא 2K
פלט:
- ייצוגים וקטוריים מספריים של נתוני טקסט קלט
- גודל ההטמעה של הפלט הוא 768, ויש אפשרויות קטנות יותר (512, 256 או 128) באמצעות Matryoshka Representation Learning (MRL). המודל MRL מאפשר למשתמשים לקצר את הטמעת הפלט בגודל 768 לגודל הרצוי, ואז לבצע נורמליזציה מחדש כדי לקבל ייצוג יעיל ומדויק.
ציטוט ביבליוגרפי
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
נתוני המודל
מערך נתונים לאימון
המודל הזה אומן על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות, בסך של כ-320 מיליארד טוקנים. אלה הרכיבים העיקריים:
- מסמכי אינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-100 שפות.
- קוד ומסמכים טכניים: חשיפת המודל לקוד ולמסמכים טכניים עוזרת לו ללמוד את המבנה והדפוסים של שפות תכנות ותוכן מדעי ייעודי, וכך לשפר את ההבנה שלו לגבי קוד ושאלות טכניות.
- נתונים סינתטיים ונתונים ספציפיים למשימה: נתוני אימון סינתטיים עוזרים ללמד את המודל מיומנויות ספציפיות. הוא כולל נתונים שנאספו במיוחד למשימות כמו אחזור מידע, סיווג וניתוח סנטימנטים, שעוזרים לשפר את הביצועים שלו עבור אפליקציות נפוצות של הטמעה.
השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון של מודל הטמעה רב-לשוני עוצמתי, שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים של נתונים.
עיבוד מקדים של נתונים
אלה השיטות העיקריות לניקוי ולסינון הנתונים שמוחלות על נתוני האימון:
- סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח שתוכן מזיק ולא חוקי לא ייכלל.
- סינון נתונים רגישים: כדי להפוך את המודלים של Gemma שעברו אימון מראש לבטוחים ואמינים, השתמשנו בטכניקות אוטומטיות לסינון של פרטים אישיים מסוימים ונתונים רגישים אחרים ממערכי האימון.
- שיטות נוספות: סינון על סמך איכות התוכן והבטיחות בהתאם למדיניות שלנו.
פיתוח מודלים
חומרה
EmbeddingGemma אומן באמצעות הדור האחרון של חומרת Tensor Processing Unit (TPU) (TPUv5e). לפרטים נוספים אפשר לעיין בכרטיס המודל של Gemma 3.
תוכנה
האימון בוצע באמצעות JAX ו-ML Pathways. פרטים נוספים זמינים בכרטיס המודל של Gemma 3.
הערכה
תוצאות ההשוואה לשוק
המודל נבדק מול אוסף גדול של מערכי נתונים ומדדים שונים כדי לכסות היבטים שונים של הבנת טקסט.
נקודת ביקורת עם דיוק מלא
| MTEB (Multilingual, v2) | ||
|---|---|---|
| מספר המימדים | ממוצע (משימה) | Mean (TaskType) |
| 768d | 61.15 | 54.31 |
| 512d | 60.71 | 53.89 |
| 256 ימים | 59.68 | 53.01 |
| 128 ימים | 58.23 | 51.77 |
| MTEB (English, v2) | ||
|---|---|---|
| מספר המימדים | ממוצע (משימה) | Mean (TaskType) |
| 768d | 69.67 | 65.11 |
| 512d | 69.18 | 64.59 |
| 256 ימים | 68.37 | 64.02 |
| 128 ימים | 66.66 | 62.70 |
| MTEB (Code, v1) | ||
|---|---|---|
| מספר המימדים | ממוצע (משימה) | Mean (TaskType) |
| 768d | 68.76 | 68.76 |
| 512d | 68.48 | 68.48 |
| 256 ימים | 66.74 | 66.74 |
| 128 ימים | 62.96 | 62.96 |
נקודות לבדיקת איכות
| MTEB (Multilingual, v2) | ||
|---|---|---|
| Quant config (dimensionality) | ממוצע (משימה) | Mean (TaskType) |
| דיוק מעורב* (768d) | 60.69 | 53.82 |
| Q8_0 (768d) | 60.93 | 53.95 |
| Q4_0 (768d) | 60.62 | 53.61 |
| MTEB (English, v2) | ||
|---|---|---|
| Quant config (dimensionality) | ממוצע (משימה) | Mean (TaskType) |
| דיוק מעורב* (768d) | 69.32 | 64.82 |
| Q8_0 (768d) | 69.49 | 64.84 |
| Q4_0 (768d) | 69.31 | 64.65 |
| MTEB (Code, v1) | ||
|---|---|---|
| Quant config (dimensionality) | ממוצע (משימה) | Mean (TaskType) |
| דיוק מעורב* (768d) | 68.03 | 68.03 |
| Q8_0 (768d) | 68.70 | 68.70 |
| Q4_0 (768d) | 67.99 | 67.99 |
* דיוק מעורב מתייחס לכמתות לפי ערוץ עם int4 להטמעות, להזנה קדימה ולשכבות של הקרנה, ו-int8 לתשומת לב (e4_a8_f4_p4).
הוראות להנחיות
הטמעה של Gemma יכולה ליצור הטמעות שעברו אופטימיזציה למגוון תרחישי שימוש – כמו אחזור מסמכים, מענה לשאלות ואימות עובדות – או לסוגים ספציפיים של קלט – שאילתה או מסמך – באמצעות הנחיות שמוצמדות למחרוזות הקלט.
הנחיות לשאילתות הן מהצורה task: {task description} | query:, כאשר תיאור המשימה משתנה בהתאם לתרחיש השימוש, ותיאור המשימה שמוגדר כברירת מחדל הוא search result. הנחיות בסגנון מסמך הן מהצורה
title: {title | "none"} | text: כאשר הכותרת היא none (ברירת המחדל) או הכותרת בפועל של המסמך. הערה: אם מספקים כותרת, ביצועי המודל ישתפרו כשמזינים פרומפטים למסמכים, אבל יכול להיות שיהיה צורך בעיצוב ידני.
משתמשים בהנחיות הבאות בהתאם לתרחיש השימוש ולסוג נתוני הקלט. יכול להיות שהאפשרויות האלה כבר זמינות בהגדרות של EmbeddingGemma במסגרת המודלים שבחרתם.
תרחיש לדוגמה (enum של סוג המשימה) |
תיאורים |
הנחיה מומלצת |
|---|---|---|
אחזור (שאילתה) |
משמש ליצירת הטמעות שעברו אופטימיזציה לחיפוש מסמכים או לאחזור מידע |
task: search result | query: {content} |
שליפה (מסמך) |
title: {title | "none"} | text: {content} |
|
מענה לשאלות |
task: question answering | query: {content} |
|
בדיקת עובדות |
task: fact checking | query: {content} |
|
סיווג |
משמש ליצירת הטמעות שעברו אופטימיזציה לסיווג טקסטים לפי תוויות שהוגדרו מראש |
task: classification | query: {content} |
אשכול |
משמש ליצירת הטמעות שעברו אופטימיזציה כדי לאגד טקסטים על סמך הדמיון ביניהם |
task: clustering | query: {content} |
דמיון סמנטי |
משמש ליצירת הטמעות שעברו אופטימיזציה להערכת הדמיון בין טקסטים. התכונה הזו לא מיועדת לתרחישי שימוש של אחזור. |
task: sentence similarity | query: {content} |
אחזור קוד |
משמש לאחזור בלוק קוד על סמך שאילתה בשפה טבעית, כמו sort an array או reverse a linked list. ההטמעות של בלוקי הקוד מחושבות באמצעות retrieval_document. |
task: code retrieval | query: {content} |
שימוש ומגבלות
למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.
שימוש מיועד
למודלים פתוחים של הטמעה יש מגוון רחב של שימושים בתחומים ובתעשיות שונות. הרשימה הבאה של שימושים פוטנציאליים לא מקיפה את כל האפשרויות. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה שהיוצרים של המודל לקחו בחשבון כחלק מהאימון והפיתוח של המודל.
- דמיון סמנטי: הטמעה של וקטורים שעברו אופטימיזציה להערכת דמיון בין טקסטים, כמו מערכות המלצה וזיהוי כפילויות
- סיווג: הטמעה שעברה אופטימיזציה לסיווג טקסטים לפי תוויות מוגדרות מראש, כמו ניתוח סנטימנט וזיהוי ספאם
- Clustering: Embeddings optimized to cluster texts based on their similarities, such as document organization, market research, and anomaly detection
אחזור
- מסמך: הטמעה שעברה אופטימיזציה לחיפוש מסמכים, כמו יצירת אינדקס של מאמרים, ספרים או דפי אינטרנט לחיפוש
- שאילתה: הטמעה אופטימלית של שאילתות חיפוש כלליות, כמו חיפוש בהתאמה אישית
- שאילתת קוד: הטמעה שעברה אופטימיזציה לאחזור של בלוקי קוד על סמך שאילתות בשפה טבעית, כמו הצעות קוד וחיפוש
מענה על שאלות: הטמעות של שאלות במערכת למענה על שאלות, שעברה אופטימיזציה למציאת מסמכים עם תשובות לשאלה, כמו תיבת צ'אט.
אימות עובדות: הטמעה של הצהרות שצריך לאמת, עם אופטימיזציה לאחזור מסמכים שמכילים הוכחות שתומכות בהצהרה או מפריכות אותה, כמו מערכות אוטומטיות לבדיקת עובדות.
מגבלות
נתוני אימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
דו-משמעות וניואנסים בשפה
- שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה ציורית.
שיקולים אתיים וסיכונים
סיכונים שזוהו ודרכים לצמצום הסיכונים:
- הנצחת הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיות במהלך אימון המודל, כוונון עדין של המודל ותהליכים אחרים.
- שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני בהטמעות. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח שמאפשרים למשתמשים לסמן שימוש לרעה. שימושים אסורים במודלים של Gemma מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
- הפרות של פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מהם מידע אישי מסוים ונתונים רגישים אחרים. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
יתרונות
בזמן ההשקה, משפחת המודלים הזו מספקת הטמעות של מודלים פתוחים להטמעת וקטורים עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח אחראי של AI, בהשוואה למודלים בגודל דומה. המודלים האלה הראו ביצועים טובים יותר בהשוואה לחלופות אחרות של מודלים פתוחים בגודל דומה, על סמך מדדי ההשוואה שמתוארים במסמך הזה.