‫Gemma 4 הושק עם קלט של טקסט, אודיו ותמונות, וחלון הקשר ארוך של עד 256 אלף טוקנים. מידע נוסף

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

כרטיס המודל Gemma 4

Gemma 4 Banner

‫Hugging Face | GitHub | בלוג ההשקה | תיעוד
רישיון: Apache 2.0 | מחברים: Google DeepMind

‫Gemma היא משפחה של מודלים פתוחים שנוצרו על ידי Google DeepMind. מודלים של Gemma 4 הם מולטי-מודאליים, הם מעבדים קלט של טקסט ותמונות (עם תמיכה באודיו במודלים קטנים) ויוצרים פלט של טקסט. הגרסה הזו כוללת מודלים עם משקלים פתוחים, גם בגרסאות שאומנו מראש וגם בגרסאות שעברו כוונון לפי הוראות. ל-Gemma 4 יש חלון הקשר של עד 256K טוקנים, והוא תומך ביותר מ-140 שפות.

‫Gemma 4 כולל ארכיטקטורות צפופות וגם ארכיטקטורות של תערובת מומחים (MoE), ולכן הוא מתאים למשימות כמו יצירת טקסט, תכנות וחשיבה רציונלית. המודלים זמינים בארבעה גדלים שונים: E2B,‏ E4B,‏ 26B A4B ו-31B. הגדלים המגוונים שלהם מאפשרים פריסה בסביבות שונות, החל מטלפונים מתקדמים ועד מחשבים ניידים ושרתים, וכך הגישה ל-AI מתקדם הופכת לזמינה לכולם.

‫Gemma 4 כולל יכולות מתקדמות ושיפורים בארכיטקטורה:

חשיבה רציונלית – כל המודלים במשפחה מתוכננים כמודלים עם יכולות גבוהות של חשיבה רציונלית, עם מצבי חשיבה שניתנים להגדרה.
יכולות מולטי-מודאליות מתקדמות – עיבוד של טקסט, תמונות עם יחס גובה-רוחב ורזולוציה משתנים (בכל הדגמים), סרטונים ואודיו (התכונה הזו מובנית בדגמי E2B ו-E4B).
ארכיטקטורות מגוונות ויעילות – מציע וריאציות של Dense ו-Mixture-of-Experts (MoE) בגדלים שונים לפריסה ניתנת להרחבה.
אופטימיזציה לשימוש במכשיר – מודלים קטנים יותר מיועדים במיוחד לביצוע מקומי יעיל במחשבים ניידים ובמכשירים ניידים.
חלון הקשר גדול יותר – בדגמים הקטנים יש חלון הקשר של 128K, ובדגמים הבינוניים יש חלון הקשר של 256K.
יכולות משופרות של תכנות וסוכנים – משיג שיפורים משמעותיים במדדי ביצועים של תכנות, לצד תמיכה מובנית בהפעלת פונקציות, ומאפשר הפעלה של סוכנים אוטונומיים בעלי יכולות גבוהות.
תמיכה בהנחיות מערכת מקוריות – Gemma 4 מציג תמיכה מקורית בsystem תפקידים, ומאפשר שיחות מובנות וניתנות לשליטה יותר.

סקירה כללית של מודלים

מודלים של Gemma 4 נועדו לספק ביצועים ברמה מתקדמת בכל גודל, ולתמוך בתרחישי פריסה ממכשירים ניידים וממכשירי קצה (E2B, ‏ E4B) ועד ל-GPU לצרכנים ולתחנות עבודה (26B A4B, ‏ 31B). הם מתאימים במיוחד לניתוח, לתהליכי עבודה של סוכנים, לתכנות ולהבנה מולטי-מודאלית.

המודלים משתמשים במנגנון קשב היברידי שמשלב קשב מקומי של חלון נע עם קשב גלובלי מלא, כדי להבטיח שהשכבה הסופית תמיד תהיה גלובלית. העיצוב ההיברידי הזה מספק את מהירות העיבוד ואת הזיכרון שבשימוש הנמוך של מודל קל משקל, בלי להתפשר על היכולת להבין הקשרים מורכבים וארוכים שנדרשת למשימות כאלה. כדי לבצע אופטימיזציה של הזיכרון להקשרים ארוכים, השכבות הגלובליות כוללות מפתחות וערכים מאוחדים, ומחילות RoPE פרופורציונלי (p-RoPE).

מודלים צפופים

נכס	E2B	E4B	‫31B Dense
סך הכול פרמטרים	2.3 מיליארד פרמטרים אפקטיביים (5.1 מיליארד עם הטמעות)	‫4.5 מיליארד פרמטרים אפקטיביים (8 מיליארד עם הטמעות)	‫30.7 מיליארד
שכבות	35	42	60
חלון נע	‫512 טוקנים	‫512 טוקנים	‫1,024 טוקנים
אורך ההקשר	‫128,000 טוקנים	‫128,000 טוקנים	‫256,000 טוקנים
גודל אוצר המילים	262K	262K	262K
סוגי נתונים נתמכים	טקסט, תמונה, אודיו	טקסט, תמונה, אודיו	טקסט, תמונה
פרמטרים של Vision Encoder	‫~150 מיליון	‫~150 מיליון	~550M
פרמטרים של מקודד אודיו	~300M	~300M	ללא אודיו

האות E ב-E2B וב-E4B מייצגת פרמטרים 'אפקטיביים'. המודלים הקטנים יותר משלבים הטמעות בכל שכבה (PLE) כדי למקסם את יעילות הפרמטרים בפריסות במכשיר. במקום להוסיף עוד שכבות או פרמטרים למודל, PLE נותן לכל שכבת פענוח הטמעה קטנה משלה לכל טוקן. טבלאות ההטמעה האלה גדולות, אבל הן משמשות רק לחיפושים מהירים, ולכן מספר הפרמטרים האפקטיבי קטן בהרבה מהמספר הכולל.

מודל Mixture-of-Experts (MoE)

נכס	26B A4B MoE
סך הכול פרמטרים	‫25.2B
פרמטרים פעילים	‫3.8B
שכבות	30
חלון נע	‫1,024 טוקנים
אורך ההקשר	‫256,000 טוקנים
גודל אוצר המילים	262K
מספר המומחים	‫8 פעילים / 128 סה"כ ו-1 משותף
סוגי נתונים נתמכים	טקסט, תמונה
פרמטרים של Vision Encoder	~550M

האות A ב-26B A4B מייצגת 'פרמטרים פעילים', בניגוד למספר הכולל של הפרמטרים שהמודל מכיל. המודל Mixture-of-Experts פועל הרבה יותר מהר ממה שאפשר להסיק מהגודל הכולל שלו (26 מיליארד פרמטרים), כי הוא מפעיל רק קבוצת משנה של 4 מיליארד פרמטרים במהלך ההסקה. לכן הוא בחירה מצוינת להסקת מסקנות מהירה בהשוואה למודל הצפוף של 31 מיליארד פרמטרים, כי הוא פועל כמעט מהר כמו מודל של 4 מיליארד פרמטרים.

תוצאות ההשוואה לשוק

המודלים האלה נבדקו מול אוסף גדול של מערכי נתונים ומדדים שונים, כדי לכסות היבטים שונים של יצירת טקסט. תוצאות ההערכה שמסומנות בטבלה מתייחסות למודלים שעברו כוונון להוראות.

	‫Gemma 4 31B	Gemma 4 26B A4B	‫Gemma 4 E4B	‫Gemma 4 E2B	‫Gemma 3 27B (no think)
MMLU Pro	‫85.2%	82.6%	69.4%	‫60.0%	‫67.6%
AIME 2026 no tools	89.2%	88.3%	42.5%	37.5%	20.8%
LiveCodeBench v6	‫80.0%	77.1%	‫52.0%	‫44.0%	29.1%
Codeforces ELO	2150	1718	940	633	110
GPQA Diamond	‫84.3%	82.3%	‫58.6%	43.4%	42.4%
‫Tau2 (ממוצע מעל 3)	76.9%	‫68.2%	42.2%	24.5%	‫16.2%
HLE no tools	19.5%	8.7%	-	-	-
HLE עם חיפוש	26.5%	17.2%	-	-	-
BigBench Extra Hard	74.4%	64.8%	33.1%	‫21.9%	‫19.3%
MMMLU	‫88.4%	86.3%	76.6%	‫67.4%	70.7%
ראייה
MMMU Pro	76.9%	73.8%	‫52.6%	44.2%	49.7%
‫OmniDocBench 1.5 (מרחק העריכה הממוצע, ערך נמוך יותר טוב יותר)	0.131	0.149	0.181	0.290	0.365
MATH-Vision	‫85.6%	82.4%	‫59.5%	‫52.4%	46.0%
MedXPertQA MM	‫61.3%	58.1%	28.7%	23.5%	-
אודיו
CoVoST	-	-	35.54	33.47	-
FLEURS (כמה שיותר נמוך, יותר טוב)	-	-	0.08	0.09	-
הקשר רחב
MRCR v2 8 needle 128k (average)	66.4%	‫44.1%	25.4%	‫19.1%	13.5%

יכולות ליבה

מודלים של Gemma 4 מטפלים במגוון רחב של משימות שקשורות לטקסט, לראייה ולאודיו. בין היכולות העיקריות:

חשיבה – מצב חשיבה מובנה שמאפשר למודל לחשוב שלב אחר שלב לפני שהוא עונה.
הקשר רחב – חלונות הקשר של עד 128 אלף טוקנים (E2B/E4B) ו-256 אלף טוקנים (26B A4B/31B).
פענוח תמונות – זיהוי אובייקטים, ניתוח מסמכים או קובצי PDF, פענוח מסך וממשק משתמש, הבנת תרשימים, זיהוי תווים אופטי (OCR) (כולל ריבוי שפות), זיהוי כתב יד והצבעה. אפשר לעבד תמונות ביחסי גובה-רוחב וברזולוציות משתנים.
הבנת סרטונים – ניתוח סרטונים באמצעות עיבוד של רצפי פריימים.
קלט משולב מולטימודאלי – אפשר לשלב טקסט ותמונות בחופשיות בכל סדר בהנחיה אחת.
בקשה להפעלת פונקציה – תמיכה מובנית בשימוש מובנה בכלי, שמאפשרת תהליכי עבודה מבוססי-סוכן.
תכנות – יצירה, השלמה ותיקון של קוד.
ריבוי שפות – תמיכה מוכנה לשימוש ביותר מ-35 שפות, עם אימון מראש על יותר מ-140 שפות.
אודיו (במהדורות E2B ו-E4B בלבד) – זיהוי דיבור אוטומטי (ASR) ותרגום של דיבור לטקסט מתורגם בכמה שפות.

שיטות מומלצות

כדי להשיג את הביצועים הכי טובים, כדאי להשתמש בהגדרות ובשיטות המומלצות הבאות:

1. פרמטרים של דגימה

כדאי להשתמש בהגדרת הדגימה המתוקננת הבאה בכל תרחישי השימוש:

temperature=1.0
top_p=0.95
top_k=64

2. הגדרת מצב החשיבה

בהשוואה ל-Gemma 3, המודלים משתמשים בתפקידים רגילים של system, assistant ו-user. כדי לנהל את תהליך החשיבה בצורה נכונה, אפשר להשתמש בטוקנים הבאים של בקרה:

הפעלת חשיבה: כדי להפעיל חשיבה, צריך לכלול את טוקן <|think|> בתחילת הנחיית המערכת. כדי להשבית את החשיבה, מסירים את האסימון.
יצירה רגילה: כשהתכונה 'חשיבה' מופעלת, המודל יציג את ההיגיון הפנימי שלו ואחריו את התשובה הסופית, לפי המבנה הבא: <|channel>thought\n[היגיון פנימי]<channel|>
התנהגות חשיבה מושבתת: בכל המודלים, למעט וריאציות E2B ו-E4B, אם החשיבה מושבתת, המודל עדיין ייצור את התגים אבל עם בלוק חשיבה ריק: <|channel>thought\n<channel|>[תשובה סופית]

שימו לב שספריות רבות כמו Transformers ו-llama.cpp מטפלות במורכבות של תבנית הצ'אט בשבילכם.

3. שיחות עם זיכרון

אין תוכן של חשיבה בהיסטוריה: בשיחות מרובות תורות, הפלט ההיסטורי של המודל צריך לכלול רק את התשובה הסופית. מחשבות מפניות קודמות של המודל לא יתווספו לפני שתתחיל הפנייה הבאה של המשתמש.

4. סדר המודאליות

כדי להפיק רמת ביצועים אופטימלית עם קלט מולטי-מודאלי, מומלץ למקם תוכן של תמונה או אודיו לפני הטקסט בהנחיה.

5. רזולוציה משתנה של תמונות

בנוסף ליחסי גובה-רוחב משתנים, Gemma 4 תומך ברזולוציית תמונה משתנה באמצעות תקציב ניתן להגדרה של טוקנים חזותיים, שקובע כמה טוקנים משמשים לייצוג תמונה. תקציב טוקנים גבוה יותר מאפשר לשמור על יותר פרטים חזותיים, אבל דורש יותר משאבי מחשוב. תקציב נמוך יותר מאפשר הסקה מהירה יותר למשימות שלא דורשות הבנה מדויקת.

תקציבי הטוקנים הנתמכים הם: 70, ‏ 140, ‏ 280, ‏ 560 ו-1, 120.
- משתמשים בתקציבים נמוכים יותר לסיווג, לכתוביות או להבנת סרטונים, שבהם הסקת מסקנות מהירה ועיבוד של הרבה פריימים חשובים יותר מפרטים מדויקים.
- כדאי להשתמש בתקציבים גבוהים יותר למשימות כמו OCR, ניתוח מסמכים או קריאת טקסט קטן.

6. אודיו

אלה מבני ההנחיות לעיבוד אודיו:

זיהוי דיבור באודיו (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

תרגום אוטומטי של דיבור (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. אורך האודיו והווידאו

כל הדגמים תומכים בקלט של תמונות ויכולים לעבד סרטונים כפריימים, בעוד שהדגמים E2B ו-E4B תומכים גם בקלט של אודיו. האורך המקסימלי של קטע אודיו הוא 30 שניות. הסרטון יכול להיות באורך של עד 60 שניות, בהנחה שהתמונות מעובדות בקצב של פרים אחד לשנייה.

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

מערך הנתונים שלנו לאימון מוקדם הוא אוסף מגוון של נתונים בהיקף נרחב, שכולל מגוון רחב של תחומים ואופנים, כולל מסמכי אינטרנט, קוד, תמונות, אודיו, עם תאריך סיום של ינואר 2025. הרכיבים העיקריים הם:

מסמכים באינטרנט: אוסף מגוון של טקסטים באינטרנט מבטיח שהמודל ייחשף למגוון רחב של סגנונות לשוניים, נושאים ואוצר מילים. קבוצת הנתונים לאימון כוללת תוכן ביותר מ-140 שפות.
קוד: חשיפת המודל לקוד עוזרת לו ללמוד את התחביר והדפוסים של שפות תכנות, וכך לשפר את היכולת שלו ליצור קוד ולהבין שאלות שקשורות לקוד.
מתמטיקה: אימון על טקסט מתמטי עוזר למודל ללמוד חשיבה לוגית, ייצוג סימבולי ולענות על שאלות שקשורות למתמטיקה.
תמונות: מגוון רחב של תמונות מאפשר למודל לבצע משימות של ניתוח תמונות וחילוץ נתונים חזותיים.

השילוב של מקורות הנתונים המגוונים האלה חיוני לאימון מודל רב-אופני רב עוצמה שיכול להתמודד עם מגוון רחב של משימות שונות ופורמטים שונים של נתונים.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון הנתונים שמוחלות על נתוני האימון:

סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
סינון נתונים רגישים: כדי להפוך את המודלים של Gemma שעברו אימון מראש לאמינים ובטוחים, השתמשנו בטכניקות אוטומטיות לסינון של מידע אישי מסוים ומידע אישי רגיש אחר ממערכי האימון.
שיטות נוספות: סינון על סמך איכות התוכן והבטיחות בהתאם למדיניות שלנו.

אתיקה ובטיחות

ככל שמודלים פתוחים הופכים למרכזיים בתשתית הארגונית, מוצא ואבטחה הם בעלי חשיבות עליונה. מודל Gemma 4 פותח על ידי Google DeepMind ועובר את אותן בדיקות בטיחות קפדניות כמו המודלים הקנייניים שלנו של Gemini.

גישת ההערכה

מודלים של Gemma 4 פותחו בשיתוף עם צוותים פנימיים שעוסקים באבטחה ובאתיקה של בינה מלאכותית. כדי לשפר את בטיחות המודל, ערכנו מגוון רחב של בדיקות אוטומטיות ובדיקות על ידי בודקים אנושיים. ההערכות האלה תואמות לעקרונות ה-AI של Google ולמדיניות הבטיחות, שמטרתן למנוע מהמודלים של ה-AI הגנרטיבי שלנו ליצור תוכן פוגעני, כולל:

תוכן שקשור לתוכן ויזואלי של התעללות מינית בילדים (CSAM) ולניצול של ילדים
תוכן מסוכן (למשל, קידום התאבדות או מתן הוראות לפעילויות שעלולות לגרום לנזק בעולם האמיתי)
תוכן מיני בוטה
דברי שטנה (למשל, דה-הומניזציה של חברים בקבוצות מוגנות)
הטרדה (למשל, עידוד אלימות נגד אנשים)

תוצאות ההערכה

בכל התחומים של בדיקות הבטיחות, ראינו שיפורים משמעותיים בכל הקטגוריות של בטיחות התוכן בהשוואה למודלים קודמים של Gemma. באופן כללי, מודלים של Gemma 4 משיגים ביצועים טובים משמעותית ממודלים של Gemma 3 ו-3n בשיפור הבטיחות, תוך שמירה על רמה נמוכה של סירובים לא מוצדקים. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. גם במודלים של יצירת טקסט על סמך טקסט וגם במודלים של תמונה לטקסט, ובכל גדלי המודלים, המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים לעומת מודלים קודמים של Gemma.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

למודלים מולטי-מודאליים (שיכולים לעבד נתונים חזותיים, שפה ו/או אודיו) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים היא חלקית. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה אפשריים שיוצרי המודל לקחו בחשבון כחלק מאימון המודל והפיתוח שלו.

יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור פורמטים יצירתיים של טקסט, כמו שירים, סקריפטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
- צ'אט בוטים ו-AI בממשק שיחה: הפעלת ממשקי שיחה לשירות לקוחות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של קורפוס טקסט, מאמרי מחקר או דוחות.
- שליפת נתוני תמונה: אפשר להשתמש במודלים האלה כדי לשלוף, לפרש ולסכם נתונים ויזואליים לתקשורת טקסטואלית.
- עיבוד אודיו ואינטראקציה: המודלים הקטנים יותר (E2B ו-E4B) יכולים לנתח ולפרש קלט אודיו, וכך לאפשר אינטראקציות ותמלולים שמבוססים על קול.
מחקר וחינוך
- מחקר בתחום עיבוד השפה הטבעית (NLP) ומודלים גדולים של ראייה (VLM): המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של VLM ו-NLP, לפתח אלגוריתמים ולתרום לקידום התחום.
- כלים ללימוד שפות: תמיכה בחוויות למידה אינטראקטיביות של שפות, עזרה בתיקון שגיאות דקדוק או מתן תרגול בכתיבה.
  - חיפוש מידע: עוזר לחוקרים לחפש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מתן תשובות לשאלות בנושאים ספציפיים.

מגבלות

נתונים לאימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
הקשר ומורכבות המשימה
- המודלים מניבים ביצועים טובים במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. יכול להיות שיהיה קשה להתמודד עם משימות פתוחות או מורכבות מאוד.
- הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
שפה דו-משמעית וניואנסים
- שפה טבעית היא מורכבת מטבעה. יכול להיות שהמודלים יתקשו להבין ניואנסים עדינים, סרקזם או שפה ציורית.
דיוק עובדתי
- המודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים לאימון שלהם, אבל הם לא בסיסי ידע. יכול להיות שהם ייצרו הצהרות עובדתיות שגויות או לא עדכניות.
Common Sense
- המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח מודלים של ראייה ושפה (VLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

הטיה והוגנות
- מודלים גדולים של ראייה מאומנים על נתונים של טקסט ותמונות מהעולם האמיתי בהיקף נרחב, ולכן הם יכולים לשקף הטיות חברתיות-תרבותיות שמוטמעות בחומר האימון. מודלים של Gemma 4 עברו בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט והערכות אחרי האימון, כפי שמפורט בכרטיס הזה, כדי לצמצם את הסיכון להטיות האלה.
מידע מוטעה ושימוש לרעה
- אפשר להשתמש במודלים גדולים של שפה (VLM) בצורה לא נכונה כדי ליצור טקסט שהוא שקרי, מטעה או מזיק.
- יש הנחיות לשימוש אחראי במודל. אפשר לעיין בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
שקיפות ואחריותיות
- בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית VLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

יצירת תוכן פוגעני: חיוני להשתמש במנגנונים ובהנחיות לבטיחות התוכן. מומלץ למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציה.
שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני במודלים גדולים של שפה. אנחנו מספקים למשתמשים מקורות מידע חינוכיים ומנגנוני דיווח כדי להתריע על שימוש לרעה.
הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר מהם מידע אישי מסוים ומידע אישי רגיש אחר. מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על הפרטיות.
הנצחת הטיה: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיה במהלך אימון המודל, כוונון עדין ותרחישי שימוש אחרים.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת הטמעות של מודלים פתוחים של ראייה ושפה עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח אתיקה של בינה מלאכותית בהשוואה למודלים בגודל דומה.