‫Gemma 4 הושק עם קלט של טקסט, אודיו ותמונות, וחלון הקשר ארוך של עד 256 אלף טוקנים. מידע נוסף

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

כרטיס המודל Gemma 4

Gemma 4 Banner

‫Hugging Face | GitHub | בלוג ההשקה | תיעוד
רישיון: Apache 2.0 | מחברים: Google DeepMind

‫Gemma היא משפחה של מודלים בקוד פתוח שפותחו על ידי Google DeepMind. מודלים של Gemma 4 הם מולטי-מודאליים, הם מעבדים קלט של טקסט ותמונות (עם תמיכה באודיו במודלים E2B,‏ E4B ו-12B) ומפיקים פלט של טקסט. הגרסה הזו כוללת מודלים עם משקלים פתוחים, גם בגרסאות שאומנו מראש וגם בגרסאות שעברו כוונון לפי הוראות. ל-Gemma 4 יש חלון הקשר של עד 256K טוקנים, והוא תומך ביותר מ-140 שפות.

‫Gemma 4 כולל ארכיטקטורות Dense ו-Mixture-of-Experts ‏ (MoE), ולכן הוא מתאים למשימות כמו יצירת טקסט, כתיבת קוד והנמקה. המודלים זמינים בחמישה גדלים שונים: E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B. הגדלים המגוונים שלהם מאפשרים פריסה בסביבות שונות, החל מטלפונים מתקדמים ועד מחשבים ניידים ושרתים, וכך הופך את הגישה ל-AI המתקדם ביותר לזמינה לכולם.

מודל Gemma 4 כולל יכולות מתקדמות ושיפורים בארכיטקטורה:

הסקת מסקנות – כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של הסקת מסקנות, עם מצבי חשיבה שניתנים להגדרה.
יכולות מולטי-מודאליות מתקדמות – עיבוד של טקסט, תמונות עם תמיכה ביחס גובה-רוחב וברזולוציה משתנים (בכל המודלים), סרטונים ואודיו (התכונה הזו מובנית במודלים E2B,‏ E4B ו-12B).
ארכיטקטורות מגוונות ויעילות – מציע וריאציות צפופות ו-MoE (שילוב של מומחים) בגדלים שונים לפריסה ניתנת להרחבה.
אופטימיזציה לשימוש במכשיר – מודלים קטנים יותר מיועדים במיוחד לביצוע מקומי יעיל במחשבים ניידים ובמכשירים ניידים.
חלון הקשר גדול יותר – למודלים הקטנים יש חלון הקשר של 128K, ולמודלים הבינוניים יש חלון הקשר של 256K.
יכולות משופרות של תכנות וסוכנים – משיג שיפורים משמעותיים במדדי ביצועים של תכנות, לצד תמיכה מובנית בהפעלת פונקציות, ומאפשר הפעלה של סוכנים אוטונומיים עם יכולות גבוהות.
תמיכה מקורית בהנחיות מערכת – Gemma 4 כולל תמיכה מקורית בתפקיד system, שמאפשרת שיחות מובנות יותר וקלות יותר לשליטה.

סקירה כללית של המודלים

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B,‏ E4B) ועד ל-GPU לצרכן ולתחנות עבודה (12B,‏ 26B,‏ A4B,‏ 31B). הם מתאימים במיוחד להסקת מסקנות, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטי-מודאלית.

המודלים משתמשים במנגנון תשומת לב היברידי שמשלב בין תשומת לב מקומית של חלון נע לבין תשומת לב גלובלית מלאה, כדי להבטיח שהשכבה הסופית תמיד תהיה גלובלית. העיצוב ההיברידי הזה מספק את מהירות העיבוד ואת השימוש הנמוך בזיכרון של מודל קל משקל, בלי להתפשר על הידע המעמיק שנדרש למשימות מורכבות עם הקשר ארוך. כדי לבצע אופטימיזציה של הזיכרון להקשרים ארוכים, השכבות הגלובליות כוללות מפתחות וערכים מאוחדים, ומחילות Proportional RoPE ‏ (p-RoPE).

מודלים צפופים

נכס	E2B	E4B	‫12B Unified	‫31B Dense
סך הכול פרמטרים	2.3 מיליארד פרמטרים אפקטיביים (5.1 מיליארד עם הטמעות)	‫4.5 מיליארד פרמטרים (8 מיליארד עם הטמעות)	11.95B	‫30.7 מיליארד
שכבות	35	42	48	60
חלון נע	‫512 טוקנים	‫512 טוקנים	‫1,024 טוקנים	‫1,024 טוקנים
אורך ההקשר	‫128K טוקנים	‫128K טוקנים	‫256K טוקנים	‫256K טוקנים
גודל אוצר המילים	262K	262K	262K	262K
אמצעי תקשורת נתמכים	טקסט, תמונה, אודיו	טקסט, תמונה, אודיו	טקסט, תמונה, אודיו	טקסט, תמונה
פרמטרים של Vision Encoder	‫~150 מיליון	‫~150 מיליון	-	כ-550 מיליון
פרמטרים של מקודד אודיו	~300M	~300M	-	ללא אודיו

האות E ב-E2B וב-E4B מייצגת פרמטרים אפקטיביים. המודלים הקטנים יותר משלבים הטמעות לכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות או פרמטרים למודל, PLE נותן לכל שכבת פענוח הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים, ולכן מספר הפרמטרים האפקטיבי קטן בהרבה מהמספר הכולל.

המונח 'מאוחד' בשם Gemma 4 12B Unified מתייחס לארכיטקטורה שלו שלא כוללת מקודד. מודלים אחרים של Gemma 4 משתמשים במקודדים ייעודיים כדי לעבד נתונים מרובי-אופנים לפני שהם מועברים ל-LLM. ‫Gemma 4 12B מסיר את המקודדים האלה לחלוטין, ומקרין טלאים של תמונות גולמיות וצורות גל של אודיו ישירות למרחב ההטמעה של ה-LLM באמצעות שכבות לינאריות קלות משקל. הגישה המאוחדת הזו מאפשרת לכל המודאליות לזרום ישירות לטרנספורמר יחיד של מפענח בלבד, וכך מקצרת את זמן האחזור של מודאליות מרובות ומאפשרת לכוונן את כל המודל במעבר אחד.

מודל Mixture-of-Experts (MoE)

נכס	26B A4B MoE
סך הכול פרמטרים	‫25.2B
פרמטרים פעילים	‫3.8B
שכבות	30
חלון נע	‫1,024 טוקנים
אורך ההקשר	‫256K טוקנים
גודל אוצר המילים	262K
מספר המומחים	‫8 פעילים / 128 סה"כ ו-1 משותף
אמצעי תקשורת נתמכים	טקסט, תמונה
פרמטרים של Vision Encoder	כ-550 מיליון

האות A ב-26B A4B מייצגת 'פרמטרים פעילים', בניגוד למספר הכולל של הפרמטרים שהמודל מכיל. המודל Mixture-of-Experts מופעל הרבה יותר מהר ממה שאפשר להסיק מ-26B הפרמטרים הכוללים שלו, כי הוא מפעיל רק קבוצת משנה של 4B פרמטרים במהלך הסקת המסקנות. הוא בחירה מצוינת להסקת מסקנות מהירה בהשוואה למודל הצפוף של 31B, כי הוא פועל כמעט מהר כמו מודל עם 4 מיליארד פרמטרים.

תוצאות ההשוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת טקסט. תוצאות ההערכה שמסומנות בטבלה הן של מודלים שעברו כוונון להוראות.

	‫Gemma 4 31B	Gemma 4 26B A4B	‫Gemma 4 12B Unified	‫Gemma 4 E4B	‫Gemma 4 E2B	‫Gemma 3 27B (no think)
MMLU Pro	‫85.2%	82.6%	77.2%	‫69.4%	‫60.0%	67.6%
AIME 2026 no tools	‫89.2%	‫88.3%	77.5%	‫42.5%	37.5%	20.8%
LiveCodeBench v6	‫80.0%	77.1%	72.0%	‫52.0%	‫44.0%	29.1%
Codeforces ELO	2150	1718	1659	940	633	110
GPQA Diamond	‫84.3%	82.3%	78.8%	‫58.6%	43.4%	42.4%
‫Tau2 (ממוצע מעל 3)	76.9%	‫68.2%	‫69.0%	42.2%	‫24.5%	16.2%
HLE no tools	19.5%	8.7%	5.2%	-	-	-
HLE עם חיפוש	26.5%	17.2%	-	-	-	-
BigBench Extra Hard	74.4%	64.8%	‫53.0%	33.1%	‫21.9%	‫19.3%
MMMLU	88.4%	‫86.3%	‫83.4%	76.6%	‫67.4%	70.7%
ראייה
MMMU Pro	76.9%	73.8%	69.1%	‫52.6%	44.2%	49.7%
‫OmniDocBench 1.5 (מרחק העריכה הממוצע, ערך נמוך יותר טוב יותר)	0.131	0.149	0.164	0.181	0.290	0.365
MATH-Vision	‫85.6%	82.4%	79.7%	59.5%	‫52.4%	46.0%
MedXPertQA MM	‫61.3%	58.1%	48.7%	28.7%	‫23.5%	-
אודיו
CoVoST	-	-	‫38.5^*	35.54	33.47	-
FLEURS (כמה שיותר נמוך, יותר טוב)	-	-	‫0.069^*	0.08	0.09	-
הקשר רחב
‫MRCR v2 8 needle 128k (ממוצע)	‫66.4%	‫44.1%	43.4%	25.4%	‫19.1%	‫13.5%

^*לא כולל שפה סינית.

יכולות הליבה

מודלים של Gemma 4 מטפלים במגוון רחב של משימות שקשורות לטקסט, לראייה ולאודיו. בין היכולות המרכזיות:

חשיבה – מצב חשיבה מובנה שמאפשר למודל לחשוב שלב אחר שלב לפני שהוא עונה.
הקשר רחב – חלונות הקשר של עד 128 אלף טוקנים (E2B/E4B) ו-256 אלף טוקנים (12B/26B A4B/31B).
פענוח תמונות – זיהוי אובייקטים, ניתוח מסמכים או קובצי PDF, פענוח מסכים וממשקי משתמש, פענוח תרשימים, זיהוי תווים אופטי (OCR) (כולל רב-לשוני), זיהוי כתב יד והצבעה. אפשר לעבד תמונות ביחסי גובה-רוחב וברזולוציות משתנים.
הבנת סרטונים – ניתוח סרטונים באמצעות עיבוד של רצפי פריימים.
קלט משולב מולטימודאלי – אפשר לשלב טקסט ותמונות בכל סדר בהנחיה אחת.
בקשה להפעלת פונקציה – תמיכה מובנית בשימוש מובנה בכלים, שמאפשרת תהליכי עבודה מבוססי-סוכן.
תכנות – יצירה, השלמה ותיקון של קוד.
ריבוי שפות – תמיכה מוכנה לשימוש ביותר מ-35 שפות, עם אימון מראש על יותר מ-140 שפות.
אודיו (רק ב-E2B,‏ E4B ו-12B Unified) – זיהוי דיבור אוטומטי (ASR) ותרגום של דיבור לטקסט מתורגם במספר שפות.

שיטות מומלצות

כדי להשיג את הביצועים הטובים ביותר, כדאי להשתמש בהגדרות ובשיטות המומלצות הבאות:

1. פרמטרים של דגימה

כדאי להשתמש בהגדרת הדגימה המתוקננת הבאה בכל תרחישי השימוש:

temperature=1.0
top_p=0.95
top_k=64

2. הגדרת מצב החשיבה

בהשוואה ל-Gemma 3, המודלים משתמשים בתפקידים סטנדרטיים של system, assistant ו-user. כדי לנהל את תהליך החשיבה בצורה נכונה, אפשר להשתמש בטוקנים הבאים של בקרה:

הפעלת חשיבה: כדי להפעיל חשיבה, צריך לכלול את הטוקן <|think|> בתחילת הנחיית המערכת. כדי להשבית את החשיבה, מסירים את האסימון.
יצירה רגילה: כשהחשיבה מופעלת, המודל יציג את ההיגיון הפנימי שלו ואחריו את התשובה הסופית במבנה הבא: <|channel>thought\n[היגיון פנימי]<channel|>
התנהגות של חשיבה מושבתת: בכל המודלים, למעט וריאציות E2B ו-E4B, אם החשיבה מושבתת, המודל עדיין ייצור את התגים אבל עם בלוק חשיבה ריק: <|channel>thought\n<channel|>[תשובה סופית]

שימו לב שהרבה ספריות כמו Transformers ו-llama.cpp מטפלות במורכבות של תבנית הצ'אט בשבילכם.

3. שיחות עם זיכרון

אין תוכן של תהליך החשיבה בהיסטוריה: בשיחות מרובות תפניות, הפלט ההיסטורי של המודל צריך לכלול רק את התשובה הסופית. מחשבות מתורנויות קודמות של המודל לא יכולות להתווסף לפני שתורנות המשתמש הבאה מתחילה.

4. סדר המודאליות

כדי להפיק רמת ביצועים אופטימלית מקמפיין עם קלט רב-אופני, מומלץ להציב:

תוכן התמונה לפני הטקסט בהנחיה.
תוכן אודיו אחרי הטקסט בהנחיה.

5. רזולוציה משתנה של תמונות

בנוסף ליחסי גובה-רוחב משתנים, Gemma 4 תומך ברזולוציית תמונה משתנה באמצעות תקציב ניתן להגדרה של טוקנים חזותיים, שקובע כמה טוקנים משמשים לייצוג תמונה. תקציב טוקנים גבוה יותר מאפשר לשמור על יותר פרטים חזותיים, אבל הוא דורש יותר משאבי מחשוב. תקציב נמוך יותר מאפשר הסקה מהירה יותר למשימות שלא דורשות הבנה מדויקת.

התקציבים הנתמכים של הטוקנים הם: 70, ‏ 140, ‏ 280, ‏ 560 ו-1, 120.
- משתמשים בתקציבים נמוכים יותר לסיווג, לכתוביות או להבנת סרטונים, שבהם הסקת מסקנות מהירה ועיבוד של הרבה פריימים חשובים יותר מפרטים מדויקים.
- כדאי להשתמש בתקציבים גבוהים יותר למשימות כמו OCR, ניתוח מסמכים או קריאת טקסט קטן.

6. אודיו

כדי לעבד אודיו, משתמשים במבני ההנחיות הבאים:

זיהוי דיבור באודיו (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

תרגום אוטומטי של דיבור (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. אורך האודיו והווידאו

כל המודלים תומכים בקלט של תמונות ויכולים לעבד סרטונים כפריימים, בעוד שהמודלים E2B, ‏ E4B ו-12B תומכים גם בקלט של אודיו. האורך המקסימלי של קובץ האודיו הוא 30 שניות. הסרטון יכול להיות באורך של עד 60 שניות, בהנחה שהתמונות עוברות עיבוד בקצב של פרים אחד לשנייה.

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

מערך הנתונים שלנו לאימון מוקדם הוא אוסף נתונים מגוון ורחב היקף, שכולל מגוון רחב של תחומים ואופנים, כולל מסמכי אינטרנט, קוד, תמונות ואודיו, עם תאריך סיום של ינואר 2025. הרכיבים העיקריים הם:

מסמכים באינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-140 שפות.
קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ולענות על שאלות שקשורות למתמטיקה.
תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.

השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון של מודל רב-אופני חזק שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים שונים של נתונים.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון נתונים שמוחלות על נתוני האימון:

סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח שלא ייכלל תוכן מזיק ולא חוקי.
סינון מידע אישי רגיש: כדי להפוך את המודלים של Gemma שעברו אימון מראש לבטוחים ומהימנים, השתמשנו בטכניקות אוטומטיות לסינון של מידע אישי מסוים ומידע אישי רגיש אחר מקבוצות הנתונים לאימון.
שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.

אתיקה ובטיחות

ככל שהמודלים הפתוחים הופכים למרכזיים בתשתית הארגונית, מוצא הנתונים והאבטחה הופכים לחשובים ביותר. ‫Gemma 4 פותח על ידי Google DeepMind ועובר את אותן הערכות בטיחות קפדניות כמו המודלים הקנייניים של Gemini.

גישת ההערכה

מודלים של Gemma 4 פותחו בשיתוף עם צוותים פנימיים שעוסקים באבטחה ובאתיקה של בינה מלאכותית. כדי לשפר את הבטיחות של המודל, ערכנו מגוון של הערכות אוטומטיות והערכות על ידי בודקים אנושיים. ההערכות האלה תואמות לעקרונות ה-AI של Google ולמדיניות הבטיחות, שמטרתן למנוע ממודלים של AI גנרטיבי ליצור תוכן פוגעני, כולל:

תוכן שקשור לתוכן ויזואלי של התעללות מינית בילדים (CSAM) ולניצול ילדים
תוכן מסוכן (למשל, קידום התאבדות או מתן הוראות לפעילויות שעלולות לגרום לנזק בעולם האמיתי)
תוכן מיני בוטה
דברי שטנה (למשל, דה-הומניזציה של חברים בקבוצות מוגנות)
הטרדה (למשל, עידוד אלימות נגד אנשים)

תוצאות ההערכה

בכל התחומים של בדיקות הבטיחות, ראינו שיפורים משמעותיים בכל הקטגוריות של בטיחות התוכן בהשוואה למודלים קודמים של Gemma. באופן כללי, מודלים של Gemma 4 משפרים את הבטיחות באופן משמעותי בהשוואה למודלים של Gemma 3 ו-3n, תוך שמירה על מספר נמוך של סירובים לא מוצדקים. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. גם במודלים של יצירת טקסט על סמך טקסט וגם במודלים של תמונה לטקסט, ובכל גדלי המודלים, המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים לעומת מודלים קודמים של Gemma.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים מולטימודאליים (שיכולים לעבד נתונים של ראייה, שפה או אודיו) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים היא חלקית. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודל לקחו בחשבון כחלק מאימון המודל והפיתוח שלו.

יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים יצירתיים של טקסט, כמו שירים, תסריטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
- צ'אט בוטים ו-AI בממשק שיחה: הפעלת ממשקי שיחה לשירות לקוחות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
- סיכום טקסטים: יצירת סיכומים תמציתיים של קורפוס טקסטים, מאמרי מחקר או דוחות.
- שליפת נתוני תמונה: אפשר להשתמש במודלים האלה כדי לשלוף, לפרש ולסכם נתונים חזותיים לתקשורת טקסטואלית.
- עיבוד אודיו ואינטראקציה: מודלים E2B,‏ E4B ו-12B יכולים לנתח ולפרש קלט אודיו, וכך לאפשר אינטראקציות ותמלולים שמבוססים על קול.
מחקר וחינוך
- עיבוד שפה טבעית (NLP) ומחקר VLM: המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של VLM ו-NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
- כלים ללימוד שפות: תמיכה בחוויות אינטראקטיביות של לימוד שפות, עזרה בתיקון שגיאות איות ודקדוק או מתן תרגול בכתיבה.
- חיפוש מידע: עזרה לחוקרים בחיפוש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מענה על שאלות בנושאים ספציפיים.

מגבלות

נתונים לאימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
הקשר ומורכבות המשימה
- המודלים מניבים ביצועים טובים במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. יכול להיות שיהיה קשה לו להתמודד עם משימות פתוחות או מורכבות מאוד.
- הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
שפה דו-משמעית וניואנסים
- שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה ציורית.
דיוק עובדתי
- המודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי האימון שלהם, אבל הם לא בסיסי ידע. יכול להיות שהם ייצרו הצהרות עובדתיות שגויות או לא עדכניות.
Common Sense
- המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שחסרה להם היכולת להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח מודלים של ראייה ושפה (VLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

הטיה והוגנות
- מודלים גדולים של ראייה מאומנים על נתונים של טקסט ותמונות מהעולם האמיתי, ולכן הם יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. מודלים של Gemma 4 עברו בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט והערכות אחרי האימון, כפי שמפורט בכרטיס הזה, כדי לצמצם את הסיכון להטיות האלה.
מידע מוטעה ושימוש לרעה
- אפשר להשתמש במודלים גדולים של שפה (VLMs) בצורה לא נכונה כדי ליצור טקסט שהוא שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל, אפשר לעיין בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
שקיפות ואחריותיות
- בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

יצירת תוכן פוגעני: חיוני להשתמש במנגנונים ובהנחיות לבטיחות התוכן. אנחנו ממליצים למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציה.
שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני במודלים גדולים של שפה. אנחנו מספקים למשתמשים מקורות מידע ודיווח כדי להתריע על שימוש לרעה.
הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מידע אישי מסוים ומידע אישי רגיש אחר. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
הנצחת הטיה: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיה במהלך אימון המודל, כוונון עדין ותרחישי שימוש אחרים.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת יישומי מודלים של שפה ויזואלית עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח אתיקה של בינה מלאכותית, בהשוואה למודלים בגודל דומה.