כרטיס המודל Gemma 4

Gemma 4 Banner

Hugging Face | GitHub | בלוג ההשקה | תיעוד
רישיון: Apache 2.0 | מחברים: Google DeepMind

‫Gemma היא משפחה של מודלים פתוחים שפותחו על ידי Google DeepMind. מודלים של Gemma 4 הם מולטי-מודאליים, הם מעבדים קלט של טקסט ותמונות (עם תמיכה באודיו במודלים E2B,‏ E4B ו-12B) ומפיקים פלט של טקסט. הגרסה הזו כוללת מודלים עם משקלים פתוחים, גם בגרסאות שאומנו מראש וגם בגרסאות שעברו כוונון לפי הוראות. ל-Gemma 4 יש חלון הקשר של עד 256K טוקנים, והוא תומך ביותר מ-140 שפות.

‫Gemma 4 כולל ארכיטקטורות צפופות וגם ארכיטקטורות של תערובת מומחים (MoE), ולכן הוא מתאים למשימות כמו יצירת טקסט, כתיבת קוד והסקת מסקנות. המודלים זמינים בחמישה גדלים שונים: E2B,‏ E4B,‏ 12B,‏ 26B A4B ו-31B. הגודל המגוון שלהם מאפשר פריסה בסביבות שונות, החל מטלפונים מתקדמים ועד מחשבים ניידים ושרתים, וכך הגישה ל-AI מתקדם הופכת לזמינה לכולם.

‫Gemma 4 כולל יכולות ושיפורים משמעותיים בארכיטקטורה:

  • הסקת מסקנות – כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של הסקת מסקנות, עם מצבי חשיבה שניתנים להגדרה.

  • יכולות מולטי-מודאליות מתקדמות – עיבוד של טקסט, תמונות עם תמיכה ביחס גובה-רוחב וברזולוציה משתנים (בכל המודלים), סרטונים ואודיו (התכונה הזו מובנית במודלים E2B,‏ E4B ו-12B).

  • ארכיטקטורות מגוונות ויעילות – מציע וריאציות צפופות ו-MoE (שילוב של מומחים) בגדלים שונים לפריסה ניתנת להרחבה.

  • אופטימיזציה לשימוש במכשיר – מודלים קטנים יותר מיועדים במיוחד לביצוע מקומי יעיל במחשבים ניידים ובמכשירים ניידים.

  • חלון הקשר גדול יותר – למודלים הקטנים יש חלון הקשר של 128K, ולמודלים הבינוניים יש חלון הקשר של 256K.

  • יכולות משופרות של תכנות וסוכנים – משיג שיפורים משמעותיים במדדי ביצועים של תכנות, לצד תמיכה מובנית בהפעלת פונקציות, ומאפשר הפעלה של סוכנים אוטונומיים עם יכולות גבוהות.

  • תמיכה מקורית בהנחיות מערכת – Gemma 4 כולל תמיכה מקורית בתפקיד system, שמאפשרת שיחות מובנות יותר וקלות יותר לשליטה.

סקירה כללית של המודלים

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתת מענה לתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B, ‏ E4B) ועד ל-GPU לצרכנים ולתחנות עבודה (12B, ‏ 26B A4B, ‏ 31B). הם מתאימים במיוחד להסקת מסקנות, לתהליכי עבודה מבוססי-סוכנים, לתכנות ולהבנה מולטי-מודאלית.

המודלים משתמשים במנגנון תשומת לב היברידי שמשלב בין תשומת לב מקומית של חלון הזזה לבין תשומת לב גלובלית מלאה, כדי להבטיח שהשכבה הסופית תמיד תהיה גלובלית. העיצוב ההיברידי הזה מאפשר מהירות עיבוד גבוהה ושימוש נמוך בזיכרון, כמו במודל קל משקל, בלי לפגוע ביכולת ההבנה העמוקה שנדרשת למשימות מורכבות עם הקשר ארוך. כדי לבצע אופטימיזציה של הזיכרון להקשרים ארוכים, השכבות הגלובליות כוללות מפתחות וערכים מאוחדים, ומחילות Proportional RoPE ‏ (p-RoPE).

מודלים צפופים

נכס E2B E4B ‫12B Unified ‫31B Dense
סך הכול פרמטרים ‫2.3 מיליארד פרמטרים אפקטיביים (5.1 מיליארד עם הטמעות) ‫4.5 מיליארד פרמטרים (8 מיליארד עם הטמעה) 11.95B ‫30.7 מיליארד
שכבות 35 42 48 60
חלון נע ‫512 טוקנים ‫512 טוקנים ‫1,024 טוקנים ‫1,024 טוקנים
אורך ההקשר ‫128K טוקנים ‫128K טוקנים ‫256K טוקנים ‫256K טוקנים
גודל אוצר המילים 262K 262K 262K 262K
אמצעי תקשורת נתמכים טקסט, תמונה, אודיו טקסט, תמונה, אודיו טקסט, תמונה, אודיו טקסט, תמונה
פרמטרים של Vision Encoder ~150 מיליון ~150 מיליון - כ-550 מיליון
פרמטרים של מקודד אודיו ~300M ~300M - ללא אודיו

האות E ב-E2B וב-E4B מייצגת פרמטרים יעילים. המודלים הקטנים יותר משלבים הטמעות לכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות או פרמטרים למודל, PLE נותן לכל שכבת פענוח הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים, ולכן מספר הפרמטרים היעילים קטן בהרבה מהמספר הכולל.

המונח Unified (מאוחד) בשם Gemma 4 12B Unified מתייחס לארכיטקטורה שלו, שלא כוללת מקודד. מודלים אחרים של Gemma 4 משתמשים במקודדים ייעודיים כדי לעבד נתונים מולטי-מודאליים לפני שהם מועברים ל-LLM. מודל Gemma 4 12B לא כולל מקודדים כאלה בכלל, והוא ממפה טלאים של תמונות גולמיות וצורות גל של אודיו ישירות למרחב ההטמעה של ה-LLM באמצעות שכבות ליניאריות קלות משקל. הגישה המאוחדת הזו מאפשרת לכל המודלים לזרום ישירות למודל Transformer יחיד שמבוסס על פענוח בלבד, וכך מקטינה את זמן האחזור המולטי-מודאלי ומאפשרת לכוונן את כל המודל במעבר אחד.

מודל Mixture-of-Experts (MoE)

נכס 26B A4B MoE
סך הכול פרמטרים ‫25.2B
פרמטרים פעילים ‫3.8B
שכבות 30
חלון נע ‫1,024 טוקנים
אורך ההקשר ‫256K טוקנים
גודל אוצר המילים 262K
מספר המומחים ‫8 פעילים / 128 סה"כ ו-1 משותף
אמצעי תקשורת נתמכים טקסט, תמונה
פרמטרים של Vision Encoder כ-550 מיליון

האות A ב-26B A4B מייצגת 'פרמטרים פעילים', בניגוד למספר הכולל של הפרמטרים שהמודל מכיל. המודל Mixture-of-Experts פועל הרבה יותר מהר ממה שאפשר להסיק מהגודל הכולל שלו (26 מיליארד פרמטרים), כי במהלך ההסקה מופעל רק חלק קטן של 4 מיליארד פרמטרים. הוא בחירה מצוינת להסקת מסקנות מהירה בהשוואה למודל הצפוף של 31B, כי הוא פועל כמעט מהר כמו מודל עם 4 מיליארד פרמטרים.

תוצאות ההשוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת טקסט. תוצאות ההערכה שמסומנות בטבלה הן של מודלים שעברו כוונון להוראות.

‫Gemma 4 31B Gemma 4 26B A4B ‫Gemma 4 12B Unified ‫Gemma 4 E4B ‫Gemma 4 E2B ‫Gemma 3 27B (no think)
MMLU Pro ‫85.2% 82.6% 77.2% ‫69.4% ‫60.0% 67.6%
AIME 2026 no tools ‫89.2% ‫88.3% 77.5% ‫42.5% 37.5% ‫20.8%
LiveCodeBench v6 ‫80.0% 77.1% 72.0% ‫52.0% ‫44.0% 29.1%
Codeforces ELO 2150 1718 1659 940 633 110
GPQA Diamond ‫84.3% 82.3% 78.8% ‫58.6% 43.4% 42.4%
‫Tau2 (ממוצע מעל 3) 76.9% ‫68.2% ‫69.0% 42.2% ‫24.5% 16.2%
HLE no tools 19.5% 8.7% 5.2% - - -
HLE עם חיפוש 26.5% 17.2% - - - -
BigBench Extra Hard 74.4% 64.8% ‫53.0% 33.1% ‫21.9% ‫19.3%
MMMLU ‫88.4% ‫86.3% ‫83.4% 76.6% ‫67.4% 70.7%
ראייה
MMMU Pro 76.9% 73.8% 69.1% ‫52.6% 44.2% 49.7%
‫OmniDocBench 1.5 (מרחק העריכה הממוצע, ערך נמוך יותר טוב יותר) 0.131 0.149 0.164 0.181 0.290 0.365
MATH-Vision ‫85.6% 82.4% 79.7% 59.5% ‫52.4% 46.0%
MedXPertQA MM ‫61.3% 58.1% 48.7% 28.7% ‫23.5% -
אודיו
CoVoST - - 38.5 35.54 33.47 -
FLEURS (כמה שיותר נמוך, יותר טוב) - - 0.069 0.08 0.09 -
הקשר רחב
‫MRCR v2 8 needle 128k (ממוצע) 66.4% ‫44.1% 43.4% 25.4% ‫19.1% ‫13.5%

יכולות הליבה

מודלים של Gemma 4 מטפלים במגוון רחב של משימות שקשורות לטקסט, לראייה ולאודיו. בין היכולות המרכזיות:

  • חשיבה – מצב חשיבה מובנה שמאפשר למודל לחשוב שלב אחר שלב לפני שהוא עונה.
  • הקשר רחב – חלונות הקשר של עד 128K טוקנים (E2B/E4B) ו-256K טוקנים (12B/26B A4B/31B).
  • פענוח תמונות – זיהוי אובייקטים, ניתוח מסמכים או קובצי PDF, פענוח מסכים וממשקי משתמש, פענוח תרשימים, זיהוי תווים אופטי (OCR) (כולל רב-לשוני), זיהוי כתב יד והצבעה. אפשר לעבד תמונות ביחסי גובה-רוחב וברזולוציות משתנים.
  • Video Understanding – ניתוח סרטונים באמצעות עיבוד של רצפי פריימים.
  • קלט משולב מולטימודאלי – אפשר לשלב טקסט ותמונות בכל סדר בהנחיה אחת.
  • בקשה להפעלת פונקציה – תמיכה מובנית בשימוש מובנה בכלים, שמאפשרת תהליכי עבודה מבוססי-סוכן.
  • תכנות – יצירה, השלמה ותיקון של קוד.
  • ריבוי שפות – תמיכה מוכנה לשימוש ביותר מ-35 שפות, עם אימון מראש על יותר מ-140 שפות.
  • אודיו (רק ב-E2B,‏ E4B ו-12B Unified) – זיהוי דיבור אוטומטי (ASR) ותרגום של דיבור לטקסט מתורגם במספר שפות.

שיטות מומלצות

כדי להשיג את הביצועים הטובים ביותר, כדאי להשתמש בהגדרות ובשיטות המומלצות הבאות:

1. פרמטרים של דגימה

כדאי להשתמש בהגדרת הדגימה המתוקננת הבאה בכל תרחישי השימוש:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. הגדרת מצב החשיבה

בהשוואה ל-Gemma 3, המודלים משתמשים בתפקידים רגילים של system, assistant ו-user. כדי לנהל את תהליך החשיבה בצורה נכונה, אפשר להשתמש בטוקנים הבאים של בקרה:

  • הפעלת חשיבה: כדי להפעיל חשיבה, צריך לכלול את הטוקן <|think|> בתחילת הנחיית המערכת. כדי להשבית את החשיבה, מסירים את האסימון.
  • יצירה רגילה: כשהחשיבה מופעלת, המודל יציג את ההיגיון הפנימי שלו ואחריו את התשובה הסופית, לפי המבנה הבא: <|channel>thought\n[היגיון פנימי]<channel|>
  • התנהגות של חשיבה מושבתת: בכל המודלים, למעט וריאציות E2B ו-E4B, אם החשיבה מושבתת, המודל עדיין ייצור את התגים אבל עם בלוק חשיבה ריק: <|channel>thought\n<channel|>[תשובה סופית]

שימו לב שהרבה ספריות כמו Transformers ו-llama.cpp מטפלות במורכבות של תבנית הצ'אט בשבילכם.

3. שיחות עם זיכרון

  • אין תוכן של תהליך החשיבה בהיסטוריה: בשיחות מרובות תפניות, הפלט ההיסטורי של המודל צריך לכלול רק את התשובה הסופית. מחשבות מתור הקודם של המודל לא מתווספות לפני תור המשתמש הבא.

4. סדר המודאליות

כדי להפיק רמת ביצועים אופטימלית מקמפיין עם קלט רב-אופני, מומלץ להציב:

  • תוכן התמונה לפני הטקסט בהנחיה.
  • תוכן אודיו אחרי הטקסט בהנחיה.

5. רזולוציה משתנה של תמונות

בנוסף ליחסי גובה-רוחב משתנים, Gemma 4 תומך ברזולוציית תמונה משתנה באמצעות תקציב משתנה של טוקנים חזותיים. התקציב הזה קובע כמה טוקנים ישמשו לייצוג תמונה. תקציב גבוה יותר של טוקנים מאפשר לשמור על יותר פרטים חזותיים, אבל דורש יותר משאבי מחשוב. תקציב נמוך יותר מאפשר הסקה מהירה יותר למשימות שלא דורשות הבנה מדויקת.

  • התקציבים הנתמכים של טוקנים הם: 70, ‏ 140, ‏ 280, ‏ 560 ו-1, 120.
    • משתמשים בתקציבים נמוכים יותר לסיווג, לכתוביות או להבנת סרטונים, שבהם הסקה מהירה ועיבוד של הרבה פריימים חשובים יותר מפרטים מדויקים.
    • כדאי להשתמש בתקציבים גבוהים יותר למשימות כמו OCR, ניתוח מסמכים או קריאת טקסט קטן.

6. אודיו

כדי לעבד אודיו, משתמשים במבני ההנחיות הבאים:

  • זיהוי דיבור באודיו (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • תרגום אוטומטי של דיבור (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. אורך האודיו והווידאו

כל המודלים תומכים בקלט של תמונות ויכולים לעבד סרטונים כפריימים, בעוד שהמודלים E2B,‏ E4B ו-12B תומכים גם בקלט של אודיו. האורך המקסימלי של אודיו הוא 30 שניות. האורך המקסימלי של סרטון הוא 60 שניות, בהנחה שהתמונות מעובדות בפריים אחד לשנייה.

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

מערך הנתונים שלנו לאימון מוקדם הוא אוסף נתונים מגוון ורחב היקף, שכולל מגוון רחב של תחומים ואופנים, כולל מסמכי אינטרנט, קוד, תמונות, אודיו, עם תאריך סיום של ינואר 2025. הרכיבים העיקריים הם:

  • מסמכים באינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-140 שפות.
  • קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
  • מתמטיקה: אימון על טקסטים מתמטיים עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ולענות על שאלות שקשורות למתמטיקה.
  • תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.

השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון מודל רב-אופני רב-עוצמה שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים שונים של נתונים.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון נתונים שמוחלות על נתוני האימון:

  • סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח שתוכן מזיק ולא חוקי לא ייכלל.
  • סינון נתונים רגישים: כדי להפוך את המודלים של Gemma שעברו אימון מראש לאמינים ובטוחים, השתמשנו בטכניקות אוטומטיות לסינון של מידע אישי רגיש מסוים ונתונים רגישים אחרים מקבוצות נתונים לאימון.
  • שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.

אתיקה ובטיחות

ככל שמודלים פתוחים הופכים למרכזיים בתשתית של ארגונים, מקוריות ואבטחה הם בעלי חשיבות עליונה. מודל Gemma 4 פותח על ידי Google DeepMind ועובר את אותן בדיקות בטיחות קפדניות כמו מודלי Gemini הקנייניים שלנו.

גישת ההערכה

מודלים של Gemma 4 פותחו בשיתוף עם צוותים פנימיים שעוסקים באבטחה ובאתיקה של בינה מלאכותית. כדי לשפר את בטיחות המודל, ערכנו מגוון רחב של הערכות אוטומטיות והערכות על ידי בודקים אנושיים. ההערכות האלה תואמות לעקרונות ה-AI של Google ולמדיניות הבטיחות שלנו, שמטרתן למנוע ממודלים של AI גנרטיבי ליצור תוכן פוגעני, כולל:

  • תוכן שקשור לתוכן ויזואלי של התעללות מינית בילדים (CSAM) ולניצול מיני של ילדים
  • תוכן מסוכן (למשל, קידום התאבדות או מתן הוראות לפעילויות שעלולות לגרום לנזק בעולם האמיתי)
  • תוכן מיני בוטה
  • דברי שטנה (למשל, דה-הומניזציה של חברים בקבוצות מוגנות)
  • הטרדה (למשל, עידוד אלימות נגד אנשים)

תוצאות ההערכה

בכל התחומים של בדיקות הבטיחות, ראינו שיפורים משמעותיים בכל הקטגוריות של בטיחות התוכן בהשוואה למודלים קודמים של Gemma. באופן כללי, מודלים של Gemma 4 עדיפים משמעותית על מודלים של Gemma 3 ו-3n בשיפור הבטיחות, תוך שמירה על רמה נמוכה של סירובים לא מוצדקים. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. גם במודלים של יצירת טקסט על סמך טקסט וגם במודלים של תמונה לטקסט, ובכל גדלי המודלים, המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים לעומת מודלים קודמים של Gemma.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים מולטי-מודאליים (שיכולים לעבד נתונים חזותיים, שפה ו/או אודיו) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים היא חלקית. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודל לקחו בחשבון כחלק מאימון המודל והפיתוח שלו.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים יצירתיים של טקסט, כמו שירים, תסריטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
    • צ'אט בוטים ו-AI בממשק שיחה: הפעלת ממשקי שיחה לשירות לקוחות, לעוזרים וירטואליים או לאפליקציות אינטראקטיביות.
    • סיכום טקסטים: יצירת סיכומים תמציתיים של קורפוס טקסטים, מאמרי מחקר או דוחות.
    • שליפת נתוני תמונה: אפשר להשתמש במודלים האלה כדי לשלוף, לפרש ולסכם נתונים חזותיים לתקשורת טקסטואלית.
    • עיבוד אודיו ואינטראקציה: מודלים E2B,‏ E4B ו-12B יכולים לנתח ולפרש קלט אודיו, וכך לאפשר אינטראקציות ותמלולים שמבוססים על קול.
  • מחקר וחינוך
    • מחקר בתחום עיבוד שפה טבעית (NLP) ומודלים גדולים של ראייה (VLM): המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של VLM ו-NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
    • כלים ללימוד שפות: תמיכה בחוויות אינטראקטיביות של לימוד שפות, עזרה בתיקון שגיאות איות ודקדוק או מתן תרגול בכתיבה.
    • חיפוש מידע: עזרה לחוקרים בחיפוש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מענה על שאלות בנושאים ספציפיים.

מגבלות

  • נתונים לאימון
    • האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
  • הקשר ומורכבות המשימה
    • המודלים מצטיינים במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. משימות מורכבות מאוד או משימות שאין להן הגדרה ברורה עשויות להיות מאתגרות.
    • הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
  • שפה דו-משמעית וניואנסים
    • שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה ציורית.
  • דיוק עובדתי
    • המודלים יוצרים תשובות על סמך מידע שהם למדו מקבוצות הנתונים לאימון, אבל הם לא בסיסי ידע. הם עשויים ליצור הצהרות עובדתיות לא נכונות או לא עדכניות.
  • Common Sense
    • המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שחסרה להם היכולת להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח מודלים של ראייה ושפה (VLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

  • הטיה והוגנות
    • מודלים של שפה ויזואלית שאומנו על נתונים של טקסט ותמונות מהעולם האמיתי בהיקף גדול יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. מודלים של Gemma 4 עברו בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט והערכות אחרי האימון, כפי שמפורט בכרטיס הזה, כדי לצמצם את הסיכון להטיות האלה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריותיות
    • בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

  • יצירת תוכן פוגעני: חיוני להשתמש במנגנונים ובהנחיות לבטיחות תוכן. מומלץ למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן על סמך מדיניות המוצר הספציפית שלהם ותרחישי השימוש באפליקציה.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני במודלים גדולים של שפה. אנחנו מספקים למשתמשים מקורות מידע חינוכיים ומנגנוני דיווח כדי להתריע על שימוש לרעה.
  • הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מידע אישי מסוים ומידע אישי רגיש אחר. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
  • הנצחת הטיה: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיה במהלך אימון המודל, כוונון עדין ותרחישי שימוש אחרים.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת הטמעות של מודלים פתוחים של ראייה ושפה עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח אתיקה של בינה מלאכותית בהשוואה למודלים בגודל דומה.