כרטיס המודל Gemma 4

Gemma 4 Banner

Hugging Face | GitHub | בלוג ההשקה | תיעוד
רישיון: Apache 2.0 | מחברים: Google DeepMind

‫Gemma היא משפחה של מודלים פתוחים שנוצרו על ידי Google DeepMind. מודלים של Gemma 4 הם מולטי-מודאליים, הם מעבדים קלט של טקסט ותמונות (עם תמיכה באודיו במודלים קטנים) ויוצרים פלט של טקסט. הגרסה הזו כוללת מודלים עם משקלים פתוחים, גם בגרסאות שאומנו מראש וגם בגרסאות שעברו כוונון לפי הוראות. ל-Gemma 4 יש חלון הקשר של עד 256K טוקנים, והוא תומך ביותר מ-140 שפות.

‫Gemma 4 כולל ארכיטקטורות צפופות וגם ארכיטקטורות של תערובת מומחים (MoE), ולכן הוא מתאים למשימות כמו יצירת טקסט, תכנות וחשיבה רציונלית. המודלים זמינים בארבעה גדלים שונים: E2B,‏ E4B,‏ 26B A4B ו-31B. הגדלים המגוונים שלהם מאפשרים פריסה בסביבות שונות, החל מטלפונים מתקדמים ועד מחשבים ניידים ושרתים, וכך הגישה ל-AI מתקדם הופכת לזמינה לכולם.

‫Gemma 4 כולל יכולות מתקדמות ושיפורים בארכיטקטורה:

  • חשיבה רציונלית – כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של חשיבה רציונלית, עם מצבי חשיבה שניתנים להגדרה.

  • מולטי-מודאליות מורחבת – עיבוד של טקסט, תמונות עם תמיכה ביחס גובה-רוחב וברזולוציה משתנים (כל המודלים), סרטונים ואודיו (התכונה מוצגת באופן מובנה במודלים E2B ו-E4B).

  • ארכיטקטורות מגוונות ויעילות – מציע וריאציות של Dense ו-Mixture-of-Experts (MoE) בגדלים שונים לפריסה ניתנת להרחבה.

  • אופטימיזציה לשימוש במכשיר – מודלים קטנים יותר מיועדים במיוחד לביצוע מקומי יעיל במחשבים ניידים ובמכשירים ניידים.

  • חלון הקשר גדול יותר – בדגמים הקטנים יש חלון הקשר של 128K, ובדגמים הבינוניים יש חלון הקשר של 256K.

  • יכולות משופרות של תכנות וסוכנים – משיג שיפורים משמעותיים במדדי ביצועים של תכנות, לצד תמיכה מובנית בהפעלת פונקציות, ומאפשר הפעלה של סוכנים אוטונומיים בעלי יכולות גבוהות.

  • תמיכה בהנחיות מערכת מקוריות – Gemma 4 מציג תמיכה מקורית בsystem תפקידים, ומאפשר שיחות מובנות וניתנות לשליטה יותר.

סקירה כללית של מודלים

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתמוך בתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B, ‏ E4B) ועד ל-GPU לצרכנים ולתחנות עבודה (26B A4B, ‏ 31B). הם מתאימים במיוחד לחשיבה רציונלית, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטי-מודאלית.

המודלים משתמשים במנגנון קשב היברידי שמשלב קשב מקומי של חלון נע עם קשב גלובלי מלא, כדי להבטיח שהשכבה הסופית תמיד תהיה גלובלית. העיצוב ההיברידי הזה מספק את מהירות העיבוד וטביעת הזיכרון הנמוכה של מודל קל משקל, בלי להתפשר על הידע המעמיק שנדרש למשימות מורכבות עם הקשר ארוך. כדי לבצע אופטימיזציה של הזיכרון להקשרים ארוכים, השכבות הגלובליות כוללות מפתחות וערכים מאוחדים, ומחילות Proportional RoPE ‏ (p-RoPE).

מודלים צפופים

נכס E2B E4B ‫31B Dense
סך הכול פרמטרים 2.3 מיליארד פרמטרים אפקטיביים (5.1 מיליארד עם הטמעות) ‫4.5 מיליארד פרמטרים (8 מיליארד עם הטמעות) ‫30.7 מיליארד
שכבות 35 42 60
חלון נע ‫512 טוקנים ‫512 טוקנים ‫1,024 טוקנים
אורך ההקשר ‫128K טוקנים ‫128K טוקנים ‫256K טוקנים
גודל אוצר המילים 262K 262K 262K
סוגי נתונים נתמכים טקסט, תמונה, אודיו טקסט, תמונה, אודיו טקסט, תמונה
פרמטרים של Vision Encoder ~150 מיליון ~150 מיליון ~550M
פרמטרים של מקודד אודיו ~300M ~300M ללא אודיו

האות E ב-E2B וב-E4B מייצגת פרמטרים אפקטיביים. המודלים הקטנים יותר משלבים הטמעות בכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות או פרמטרים למודל, PLE נותן לכל שכבת פענוח הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים, ולכן מספר הפרמטרים האפקטיבי קטן בהרבה מהמספר הכולל.

מודל Mixture-of-Experts (MoE)

נכס 26B A4B MoE
סך הכול פרמטרים ‫25.2B
פרמטרים פעילים ‫3.8B
שכבות 30
חלון נע ‫1,024 טוקנים
אורך ההקשר ‫256K טוקנים
גודל אוצר המילים 262K
מספר המומחים ‫8 פעילים / 128 סה"כ ו-1 משותף
סוגי נתונים נתמכים טקסט, תמונה
פרמטרים של Vision Encoder ~550M

האות A ב-26B A4B מייצגת 'פרמטרים פעילים', בניגוד למספר הכולל של הפרמטרים שהמודל מכיל. המודל Mixture-of-Experts פועל הרבה יותר מהר ממה שאפשר להסיק מהמספר הכולל של 26 מיליארד הפרמטרים שלו, כי הוא מפעיל רק קבוצת משנה של 4 מיליארד פרמטרים במהלך הסקת המסקנות. לכן, הוא בחירה מצוינת להסקת מסקנות מהירה בהשוואה למודל הצפוף של 31 מיליארד פרמטרים, כי הוא פועל כמעט באותה מהירות כמו מודל של 4 מיליארד פרמטרים.

תוצאות ההשוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת טקסט. תוצאות ההערכה שמסומנות בטבלה מתייחסות למודלים שעברו כוונון להוראות.

‫Gemma 4 31B Gemma 4 26B A4B ‫Gemma 4 E4B ‫Gemma 4 E2B ‫Gemma 3 27B (no think)
MMLU Pro ‫85.2% 82.6% 69.4% ‫60.0% ‫67.6%
AIME 2026 no tools 89.2% 88.3% 42.5% 37.5% 20.8%
LiveCodeBench v6 ‫80.0% 77.1% ‫52.0% ‫44.0% 29.1%
Codeforces ELO 2150 1718 940 633 110
GPQA Diamond ‫84.3% 82.3% ‫58.6% 43.4% 42.4%
‫Tau2 (ממוצע מעל 3) 76.9% ‫68.2% 42.2% 24.5% ‫16.2%
HLE no tools 19.5% 8.7% - - -
HLE עם חיפוש 26.5% 17.2% - - -
BigBench Extra Hard 74.4% 64.8% 33.1% ‫21.9% ‫19.3%
MMMLU ‫88.4% 86.3% 76.6% ‫67.4% 70.7%
ראייה
MMMU Pro 76.9% 73.8% ‫52.6% 44.2% 49.7%
‫OmniDocBench 1.5 (מרחק העריכה הממוצע, ערך נמוך יותר טוב יותר) 0.131 0.149 0.181 0.290 0.365
MATH-Vision ‫85.6% 82.4% ‫59.5% ‫52.4% 46.0%
MedXPertQA MM ‫61.3% 58.1% 28.7% 23.5% -
אודיו
CoVoST - - 35.54 33.47 -
FLEURS (כמה שיותר נמוך, יותר טוב) - - 0.08 0.09 -
הקשר רחב
MRCR v2 8 needle 128k (average) 66.4% ‫44.1% 25.4% ‫19.1% 13.5%

יכולות ליבה

מודלים של Gemma 4 מטפלים במגוון רחב של משימות שקשורות לטקסט, לראייה ולאודיו. בין היכולות העיקריות:

  • חשיבה – מצב חשיבה מובנה שמאפשר למודל לחשוב שלב אחר שלב לפני שהוא עונה.
  • הקשר רחב – חלונות הקשר של עד 128K טוקנים (E2B/E4B) ו-256K טוקנים (26B A4B/31B).
  • פענוח תמונות – זיהוי אובייקטים, ניתוח מסמכים או קובצי PDF, פענוח מסך וממשק משתמש, הבנת תרשימים, זיהוי תווים אופטי (OCR) (כולל ריבוי שפות), זיהוי כתב יד והצבעה. אפשר לעבד תמונות ביחסי גובה-רוחב וברזולוציות משתנים.
  • הבנת סרטונים – ניתוח סרטונים על ידי עיבוד רצפים של פריימים.
  • קלט משולב מרובה-אופנים – אפשר לשלב טקסט ותמונות בכל סדר בהנחיה אחת.
  • בקשה להפעלת פונקציה – תמיכה מובנית בשימוש מובנה בכלי, שמאפשרת תהליכי עבודה מבוססי-סוכן.
  • תכנות – יצירה, השלמה ותיקון של קוד.
  • ריבוי שפות – תמיכה מוכנה לשימוש ביותר מ-35 שפות, עם אימון מראש על יותר מ-140 שפות.
  • אודיו (במהדורות E2B ו-E4B בלבד) – זיהוי דיבור אוטומטי (ASR) ותרגום של דיבור לטקסט מתורגם בכמה שפות.

תחילת העבודה

אפשר להשתמש בכל מודלי Gemma 4 עם הגרסה העדכנית של Transformers. כדי להתחיל, מתקינים את הרכיבים התלויים הנדרשים בסביבה:

pip install -U transformers torch accelerate

אחרי שמתקינים את הכול, אפשר להמשיך לטעינת המודל באמצעות הקוד שלמטה:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

אחרי שהמודל נטען, אפשר להתחיל ליצור פלט:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

כדי להפעיל את החשיבה הרציונלית, מגדירים את enable_thinking=True והפונקציה parse_response תדאג לנתח את פלט החשיבה.

שיטות מומלצות

כדי להשיג את הביצועים הכי טובים, כדאי להשתמש בהגדרות ובשיטות המומלצות הבאות:

1. פרמטרים של דגימה

כדאי להשתמש בהגדרת הדגימה המתוקננת הבאה בכל תרחישי השימוש:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. הגדרת מצב החשיבה

בהשוואה ל-Gemma 3, המודלים משתמשים בתפקידים רגילים של system, assistant ו-user. כדי לנהל את תהליך החשיבה בצורה נכונה, אפשר להשתמש בטוקנים הבאים של בקרה:

  • הפעלת חשיבה: כדי להפעיל חשיבה, צריך לכלול את טוקן <|think|> בתחילת הנחיית המערכת. כדי להשבית את החשיבה, מסירים את האסימון.
  • יצירה רגילה: כשהתכונה 'העמקה' מופעלת, המודל יציג את ההיגיון הפנימי שלו ואחריו את התשובה הסופית במבנה הבא: <|channel>thought\n[היגיון פנימי]<channel|>
  • התנהגות חשיבה מושבתת: בכל המודלים, למעט וריאציות E2B ו-E4B, אם החשיבה מושבתת, המודל עדיין ייצור את התגים אבל עם בלוק חשיבה ריק: <|channel>thought\n<channel|>[תשובה סופית]

שימו לב שהרבה ספריות כמו Transformers ו-llama.cpp מטפלות במורכבות של תבנית הצ'אט בשבילכם.

3. שיחות עם זיכרון

  • אין תוכן של חשיבה בהיסטוריה: בשיחות מרובות תורות, הפלט ההיסטורי של המודל צריך לכלול רק את התשובה הסופית. מחשבות מפניות קודמות של המודל לא יתווספו לפני שתתחיל הפנייה הבאה של המשתמש.

4. סדר המודאליות

  • כדי להפיק רמת ביצועים אופטימלית מקלט מולטי-מודאלי, מומלץ למקם תוכן של תמונות או אודיו לפני הטקסט בהנחיה.

5. רזולוציה משתנה של תמונות

בנוסף ליחסי גובה-רוחב משתנים, Gemma 4 תומך ברזולוציית תמונה משתנה באמצעות תקציב ניתן להגדרה של טוקנים חזותיים, שקובע כמה טוקנים משמשים לייצוג תמונה. תקציב טוקנים גבוה יותר מאפשר לשמור על יותר פרטים חזותיים, אבל דורש יותר משאבי מחשוב. תקציב נמוך יותר מאפשר הסקה מהירה יותר למשימות שלא דורשות הבנה מדויקת.

  • תקציבי הטוקנים הנתמכים הם: 70, ‏ 140, ‏ 280, ‏ 560 ו-1, 120.
    • משתמשים בתקציבים נמוכים יותר לסיווג, לכתוביות או להבנת סרטונים, שבהם הסקת מסקנות מהירה ועיבוד של הרבה פריימים חשובים יותר מפרטים מדויקים.
    • כדאי להשתמש בתקציבים גבוהים יותר למשימות כמו OCR, ניתוח מסמכים או קריאת טקסט קטן.

6. אודיו

אלה מבני ההנחיות לעיבוד אודיו:

  • זיהוי דיבור באודיו (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • תרגום אוטומטי של דיבור (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. אורך האודיו והווידאו

כל המודלים תומכים בקלט של תמונות ויכולים לעבד סרטונים כפריימים, בעוד שהמודלים E2B ו-E4B תומכים גם בקלט של אודיו. האורך המקסימלי של קטע אודיו הוא 30 שניות. הסרטון יכול להיות באורך של עד 60 שניות, בהנחה שהתמונות מעובדות בקצב של פרים אחד לשנייה.

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

מערך הנתונים שלנו לאימון מוקדם הוא אוסף מגוון של נתונים בהיקף נרחב, שכולל מגוון רחב של תחומים ואופנים, כולל מסמכי אינטרנט, קוד, תמונות, אודיו, עם תאריך סיום של ינואר 2025. הרכיבים העיקריים הם:

  • מסמכים באינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-140 שפות.
  • קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ולענות על שאלות שקשורות למתמטיקה.
  • תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.

השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון מודל רב-אופני רב עוצמה שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים שונים של נתונים.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון הנתונים שמוחלות על נתוני האימון:

  • סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח שתוכן מזיק ולא חוקי לא ייכלל.
  • סינון מידע אישי רגיש: כדי להפוך את המודלים של Gemma לפני אימון לבטוחים ומהימנים, השתמשנו בטכניקות אוטומטיות לסינון של פרטים אישיים מסוימים ומידע אישי רגיש אחר ממערכי האימון.
  • שיטות נוספות: סינון על סמך איכות התוכן והבטיחות בהתאם למדיניות שלנו.

אתיקה ובטיחות

ככל שמודלים פתוחים הופכים למרכזיים בתשתית הארגונית, מוצא ואבטחה הם בעלי חשיבות עליונה. מודל Gemma 4 פותח על ידי Google DeepMind ועובר את אותן בדיקות בטיחות קפדניות כמו מודלי Gemini הקנייניים שלנו.

גישת ההערכה

מודלים של Gemma 4 פותחו בשיתוף עם צוותים פנימיים שעוסקים באבטחה ובאתיקה של בינה מלאכותית. כדי לשפר את בטיחות המודל, ערכנו מגוון רחב של בדיקות אוטומטיות ובדיקות על ידי בודקים אנושיים. ההערכות האלה תואמות לעקרונות ה-AI של Google ולמדיניות הבטיחות, שמטרתן למנוע מהמודלים של ה-AI הגנרטיבי שלנו ליצור תוכן פוגעני, כולל:

  • תוכן שקשור לתוכן ויזואלי של התעללות מינית בילדים (CSAM) ולניצול של ילדים
  • תוכן מסוכן (למשל, קידום התאבדות או מתן הוראות לפעילויות שעלולות לגרום לנזק בעולם האמיתי)
  • תוכן מיני בוטה
  • דברי שטנה (למשל, דה-הומניזציה של חברים בקבוצות מוגנות)
  • הטרדה (למשל, עידוד אלימות נגד אנשים)

תוצאות ההערכה

בכל התחומים של בדיקות הבטיחות, ראינו שיפורים משמעותיים בכל הקטגוריות של בטיחות התוכן בהשוואה למודלים קודמים של Gemma. באופן כללי, מודלים של Gemma 4 משיגים ביצועים טובים משמעותית ממודלים של Gemma 3 ו-3n בשיפור הבטיחות, תוך שמירה על רמה נמוכה של סירובים לא מוצדקים. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. גם במודלים של יצירת טקסט על סמך טקסט וגם במודלים של תמונה לטקסט, ובכל גדלי המודלים, המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים לעומת מודלים קודמים של Gemma.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים מולטי-מודאליים (שיכולים לעבד נתונים חזותיים, שפה ו/או אודיו) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים היא חלקית. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודל לקחו בחשבון כחלק מאימון המודל והפיתוח שלו.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים יצירתיים של טקסט, כמו שירים, סקריפטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
    • צ'אט בוטים ו-AI בממשק שיחה: ממשקי שיחה מתקדמים לשירות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של קורפוס טקסטים, מאמרי מחקר או דוחות.
    • שליפת נתוני תמונה: אפשר להשתמש במודלים האלה כדי לשלוף, לפרש ולסכם נתונים ויזואליים לתקשורת טקסטואלית.
    • עיבוד אודיו ואינטראקציה: המודלים הקטנים יותר (E2B ו-E4B) יכולים לנתח ולפרש קלט אודיו, וכך לאפשר אינטראקציות ותמלולים שמבוססים על קול.
  • מחקר וחינוך
    • מחקר בתחום עיבוד השפה הטבעית (NLP) ומודלים גדולים של ראייה (VLM): המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של VLM ו-NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
    • כלים ללימוד שפות: תמיכה בחוויות למידה אינטראקטיביות של שפות, עזרה בתיקון שגיאות דקדוק או מתן תרגול בכתיבה.
      • חיפוש מידע: יכול לעזור לחוקרים לחפש מידע בטקסטים ארוכים על ידי יצירת סיכומים או מתן תשובות לשאלות על נושאים ספציפיים.

מגבלות

  • נתונים לאימון
    • האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
  • הקשר ומורכבות המשימה
    • המודלים מניבים ביצועים טובים במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. יכול להיות שיהיה קשה להתמודד עם משימות פתוחות או מורכבות מאוד.
    • הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
  • שפה דו-משמעית וניואנסים
    • שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה ציורית.
  • דיוק עובדתי
    • המודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי האימון שלהם, אבל הם לא בסיסי ידע. יכול להיות שהם ייצרו הצהרות עובדתיות שגויות או לא עדכניות.
  • Common Sense
    • המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שחסרה להם היכולת להפעיל היגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח מודלים של ראייה ושפה (VLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

  • הטיה והוגנות
    • מודלים של שפה ויזואלית שאומנו על נתונים של טקסט ותמונות מהעולם האמיתי בהיקף גדול יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. מודלים של Gemma 4 עברו בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט והערכות אחרי האימון, כפי שמפורט בכרטיס הזה, כדי לצמצם את הסיכון להטיות האלה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריותיות
    • בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח באופן אחראי מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

  • יצירת תוכן פוגעני: חיוני להשתמש במנגנונים ובהנחיות לבטיחות התוכן. אנחנו ממליצים למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציה שלהם.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני במודלים גדולים של שפה. אנחנו מספקים משאבים חינוכיים ומנגנוני דיווח למשתמשים כדי להתריע על שימוש לרעה.
  • הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מהם מידע אישי מסוים ומידע אישי רגיש אחר. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
  • הנצחת הטיה: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיה במהלך אימון המודל, כוונון עדין ותרחישי שימוש אחרים.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת הטמעות של מודלים פתוחים של ראייה ושפה עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח אתיקה של בינה מלאכותית בהשוואה למודלים בגודל דומה.