Gemma 3n – הגרסה החדשה כוללת קלט אודיו ועברה אופטימיזציה לשימוש במכשירים יומיומיים. מידע נוסף

כרטיס מודל FunctionGemma

דף המודל: FunctionGemma

משאבים ומסמכים טכניים:

תנאי שימוש: תנאים
מחברים: Google DeepMind

פרטי הדגם

תיאור קצר והגדרה תמציתית של הקלטים והפלטים.

תיאור

הערה: מודל FunctionGemma מיועד לכוונון עדין למשימה ספציפית של קריאה לפונקציה, כולל תרחישי שימוש מרובי-תורות.

‫FunctionGemma הוא מודל קל משקל ופתוח של Google, שנועד לשמש כבסיס ליצירת מודלים משלכם של קריאות לפונקציות. המודל FunctionGemma לא מיועד לשימוש כמודל דיאלוג ישיר, והוא מתוכנן להיות יעיל מאוד אחרי שיפור נוסף, כמו שקורה בדרך כלל במודלים בגודל הזה. ‫FunctionGemma מבוסס על מודל Gemma 3 270M, ועל אותם מחקר וטכנולוגיה ששימשו ליצירת מודלי Gemini. הוא אומן במיוחד לשימוש בפונקציות. למודל יש את אותה ארכיטקטורה כמו ל-Gemma 3, אבל הוא משתמש בפורמט שיחה שונה. המודל מתאים מאוד להפעלת פונקציות שמבוססות על טקסט בלבד. הגודל הקטן הייחודי מאפשר פריסה בסביבות עם משאבים מוגבלים, כמו מחשבים ניידים, מחשבים או תשתית ענן משלכם, ובכך מאפשר גישה לדגמי AI מתקדמים ומעודד חדשנות לכולם. בנוסף, בדומה למודל הבסיס Gemma 270M, המודל עבר אופטימיזציה כדי להיות רב-תכליתי במיוחד, ולספק ביצועים טובים במגוון חומרה בתרחישים של אינטראקציה אחת, אבל כדי להשיג את רמת הדיוק הכי גבוהה בתחומים ספציפיים, צריך לבצע כוונון עדין של המודל על נתונים ספציפיים של משימות עם אינטראקציה אחת או כמה אינטראקציות. כדי להדגים איך התאמה אישית של מודל עם 270 מיליון פרמטרים יכולה להשיג ביצועים גבוהים בתהליכי עבודה ספציפיים של סוכנים, הדגשנו שני תרחישי שימוש באפליקציית Google AI Edge Gallery.

‫Tiny Garden: מודל שעבר כוונון עדין כדי להפעיל משחק אינטראקטיבי בשליטה קולית. הוא מטפל בלוגיקה של המשחק כדי לנהל חלקה וירטואלית של אדמה, מפרק פקודות כמו 'לשתול חמניות בשורה העליונה' ו'להשקות את הפרחים בחלקות 1 ו-2' לפונקציות ספציפיות לאפליקציה (למשל, plant_seed,‏ water_plots) ומתאם בין יעדים. ההדגמה הזו מראה את היכולת של המודל להפעיל מנגנונים מותאמים אישית באפליקציה בלי קישוריות לשרת.
פעולות בנייד: כדי לאפשר למפתחים ליצור סוכנים מומחים משלהם, פרסמנו מערך נתונים ומתכון לכוונון עדין שמדגימים כוונון עדין של FunctionGemma. הוא מתרגם קלט של משתמשים (למשל, ‫("Create a calendar event for lunch",‏ "Turn on the flashlight") לשיחות לפונקציות שמפעילות כלים של מערכת ההפעלה Android. במחברת האינטראקטיבית הזו מוסבר איך לקחת את מודל הבסיס FunctionGemma וליצור ממנו התאמה עדינה של 'פעולות בנייד' מאפס, לשימוש באפליקציית הגלריה Google AI Edge. מקרה השימוש הזה מדגים את היכולת של המודל לפעול כסוכן פרטי אופליין למשימות במכשיר אישי.

קלט ופלט

קלט:
- מחרוזת טקסט, כמו שאלה, הנחיה או מסמך לסיכום
- הקשר כולל של 32,000 טוקנים
פלט:
- טקסט שנוצר בתגובה לקלט, כמו תשובה לשאלה או סיכום של מסמך
- ההקשר הכולל של הפלט הוא עד 32,000 טוקנים לכל בקשה, בניכוי הטוקנים של קלט הבקשה

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. המודל אומן עם 6T טוקנים. תאריך סיום איסוף הידע של נתוני האימון היה באוגוסט 2024. אלה הרכיבים העיקריים:

הגדרות של כלים ציבוריים – ממשקי API נפוצים שנמצאים באינטרנט
אינטראקציות עם כלים – אלה שילוב של הנחיות, קריאות לפונקציות, תשובות לפונקציות ותשובות בשפה טבעית מהמודל, שמטרתן לסכם את התשובה לקריאה לפונקציה או לבקש הבהרות כשההנחיה לא ברורה או לא מלאה.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון נתונים שמוחלות על נתוני האימון:

סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
סינון נתונים רגישים: כדי להפוך את המודלים שאומנו מראש של Gemma לבטוחים ומהימנים, השתמשנו בטכניקות אוטומטיות כדי לסנן מערכי אימון פרטים אישיים מסוימים ונתונים רגישים אחרים.
שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.

פרטי הטמעה

פרטים על המבנה הפנימי של המודל.

חומרה

מודל Gemma אומן באמצעות חומרה של Tensor Processing Unit‏ (TPU) (TPUv4p, ‏ TPUv5p ו-TPUv5e). אימון מודלים של ראייה ושפה (VLMs) דורש כוח מחשוב משמעותי. יחידות TPU, שמיועדות במיוחד לפעולות מטריצה שכיחות בלמידת מכונה, מציעות כמה יתרונות בתחום הזה:

ביצועים: יחידות TPU מיועדות במיוחד לטיפול בחישובים המסיביים שנדרשים לאימון של מודלים גדולים של שפה (VLM). הם יכולים לזרז את האימון באופן משמעותי בהשוואה למעבדים.
זיכרון: ל-TPU יש בדרך כלל כמות גדולה של זיכרון עם רוחב פס גבוה, שמאפשרת לטפל במודלים גדולים ובגדלים גדולים של אצווה במהלך האימון. כך אפשר לשפר את איכות המודל.
יכולת הרחבה: אשכולות TPU Pod (אשכולות גדולים של יחידות TPU) מספקים פתרון שניתן להרחבה לטיפול במורכבות הגוברת של מודלים גדולים בסיסיים. אתם יכולים לחלק את האימון בין כמה מכשירי TPU כדי לעבד את הנתונים מהר יותר וביעילות רבה יותר.
יעילות מבחינת עלות: בתרחישים רבים, יחידות TPU יכולות לספק פתרון יעיל יותר מבחינת עלות לאימון מודלים גדולים בהשוואה לתשתית מבוססת-CPU, במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכים בזכות אימון מהיר יותר.
היתרונות האלה תואמים להתחייבויות של Google לפעול באופן בר-קיימא.

תוכנה

האימון בוצע באמצעות JAX ו-ML Pathways. ‫JAX מאפשרת לחוקרים לנצל את היתרונות של הדור האחרון של חומרה, כולל TPU, כדי לאמן מודלים גדולים בצורה מהירה ויעילה יותר. ‫ML Pathways הוא המאמץ האחרון של Google לבניית מערכות בינה מלאכותית (AI) שיכולות להכליל משימות מרובות. השיטה הזו מתאימה במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה כמו אלה.
השימוש ב-JAX וב-ML Pathways ביחד מתואר במאמר על משפחת מודלי Gemini: "מודל התכנות 'בקר יחיד' של Jax ו-Pathways מאפשר לתהליך Python יחיד לתזמן את כל תהליך האימון, וכך לפשט באופן משמעותי את תהליך הפיתוח".

הערכה

מדדים ותוצאות של הערכת מודל.

תוצאות ההשוואה לשוק

Benchmark	n-shot	Function Gemma 270m
BFCL Simple	0-shot	61.6
BFCL Multiple	0-shot	63.5
BFCL Parallel	0-shot	39
BFCL Parallel Multiple	0-shot	29.5
BFCL Live Simple	0-shot	36.2
BFCL Live Multiple	0-shot	25.7
BFCL Live Parallel	0-shot	22.9
BFCL Live Parallel Multiple	0-shot	20.8
רלוונטיות של BFCL	0-shot	61.1
חוסר רלוונטיות של BFCL	0-shot	73.7

ההשפעה על הביצועים אחרי כוונון עדין של מערך נתונים של פעולות בנייד
כדי להדגים את הערך של התמחות במודלים קטנים של שפה, השווינו את מודל הבסיס FunctionGemma למודל שעבר כוונון עדין באמצעות המתכון Mobile Actions. התאמה עדינה שיפרה באופן משמעותי את היכולת של מודל FunctionGemma הבסיסי לזהות ולעצב בצורה נכונה קריאות למערכת בנייד.

מודל	תוצאות ההערכה של פעולות בנייד
מודל Gemma של פונקציית הבסיס	58%
שיפור של פעולות בנייד	85%

ביצועים במכשיר של תרחישי שימוש שעברו כוונון עדין של Gemma 270m
בדקנו את תרחישי השימוש שעברו כוונון עדין במכשיר Samsung S25 Ultra כדי להעריך את זמן האחזור ואת טביעת הזיכרון במכשיר.

הקשר: 512 אסימונים למילוי מראש ו-32 אסימונים לפענוח.
חומרה: מעבד S25 Ultra באמצעות נציג LiteRT XNNPACK עם 4 תהליכים.

ביצועים של פעולות בנייד במכשיר

קצה עורפי (Backend)	סכמת קוונטיזציה	אורך ההקשר	מילוי אוטומטי (טוקנים לשנייה)	פענוח (אסימונים לשנייה)	הזמן עד לטוקן הראשון (שניות)	גודל המודל (MB)	זיכרון RSS בשיא (MB)
מעבד	dynamic_int8	1024	1718	125.9	0.3	288	551

ביצועים של Tiny Garden במכשיר

קצה עורפי (Backend)	סכמת קוונטיזציה	אורך ההקשר	מילוי אוטומטי (טוקנים לשנייה)	פענוח (אסימונים לשנייה)	הזמן עד לטוקן הראשון (שניות)	גודל המודל (MB)	זיכרון RSS בשיא (MB)
מעבד	dynamic_int8	1024	1743	125.7	0.3	288	549

אתיקה ובטיחות

הגישה והתוצאות של הערכת האתיקה והבטיחות.

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקות פנימיות של מדיניות תוכן רלוונטית. הבדיקה בוצעה על ידי מספר צוותים שונים, שלכל אחד מהם היו מטרות שונות ומדדים שונים להערכה אנושית. המודלים האלה נבדקו לפי מספר קטגוריות שרלוונטיות לאתיקה ולבטיחות, כולל:

בטיחות ילדים: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט בנושא מדיניות בטיחות ילדים, כולל התעללות מינית בילדים וניצול ילדים.
בטיחות תוכן: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט, שכוללת מדיניות בטיחות בנושאים כמו הטרדה, אלימות ודם, ודברי שטנה.
נזקים מייצוג: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט, שכוללת מדיניות בטיחות בנושאים כמו הטיה, סטריאוטיפים, שיוכים מזיקים או אי דיוקים.

תוצאות הבדיקה

בכל התחומים של בדיקות הבטיחות, חל שיפור משמעותי בקטגוריות של בטיחות ילדים, בטיחות תוכן ונזקים ייצוגיים בהשוואה למודלים קודמים של Gemma. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים בהשוואה למודלים קודמים של Gemma, בכל הנוגע להסקת מסקנות לא מבוססות. מגבלה בהערכות שלנו הייתה שהן כללו רק הנחיות בשפה האנגלית.

שימוש ומגבלות

יש למודלים האלה מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

המודל הזה לא מיועד לשימוש כמודל לדיאלוג ישיר.
למודלים גדולים של שפה (LLM) פתוחים יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים לא מקיפה את כל האפשרויות. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה שהיוצרים של המודל לקחו בחשבון כחלק מהאימון והפיתוח של המודל.

יצירת תוכן ותקשורת
- יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור טקסטים יצירתיים בפורמטים שונים, כמו שירים, סקריפטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
- צ'אט בוטים ו-AI בממשק שיחה: הפעלת ממשקי שיחה לשירות לקוחות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
- סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסטים, עבודות מחקר או דוחות.
מחקר וחינוך
- מחקר בתחום עיבוד השפה הטבעית (NLP): המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
- כלים ללימוד שפות: תמיכה בחוויות למידה אינטראקטיביות של שפות, עזרה בתיקון דקדוק או מתן תרגול בכתיבה.
- חיפוש מידע: עוזר לחוקרים לחפש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מתן תשובות לשאלות בנושאים ספציפיים.

מגבלות

נתונים לאימון
- האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
- ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
הקשר ומורכבות המשימה
- המודלים טובים יותר במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. יכול להיות שיהיה קשה להתמודד עם משימות פתוחות או מורכבות מאוד.
- הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
דו-משמעות וניואנסים בשפה
- שפה טבעית היא מורכבת מטבעה. יכול להיות שלמודלים יהיה קשה להבין ניואנסים עדינים, סרקזם או שפה ציורית.
דיוק עובדתי
- המודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי נתוני האימון שלהם, אבל הם לא בסיסי ידע. יכול להיות שהם יפיקו הצהרות עובדתיות שגויות או לא עדכניות.
Common Sense
- המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח של מודלים גדולים של שפה (LLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

הטיה והוגנות
- מודלים גדולים של שפה שאומנו על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיה חברתית-תרבותית שמוטמעת בחומר האימון. המודלים האלה עברו בדיקה מדוקדקת, בוצע בהם עיבוד מוקדם של נתוני הקלט כפי שמתואר כאן, והערכות פוסטריוריות שלהם מדווחות בכרטיס הזה.
מידע מוטעה ושימוש לרעה
- אפשר להשתמש במודלים גדולים של שפה (LLM) בצורה לא נכונה כדי ליצור טקסט שהוא שקרי, מטעה או מזיק.
- המודל כולל הנחיות לשימוש אחראי. אפשר לעיין בערכת הכלים לשימוש אחראי ב-AI גנרטיבי.
שקיפות ואחריותיות:
- בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
- מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית LLM למפתחים ולחוקרים בסביבת ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

הנצחת הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיות במהלך אימון המודל, כוונון עדין ומקרים אחרים של שימוש.
יצירת תוכן מזיק: חיוני להשתמש במנגנונים ובהנחיות לבטיחות התוכן. אנחנו ממליצים למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציה.
שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני ב-LLM. אנחנו מספקים למשתמשים מקורות מידע ומנגנוני דיווח כדי לסמן שימוש לרעה. השימושים האסורים במודלים של Gemma מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
הפרות של פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר פרטים אישיים מזהים (PII). מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על פרטיות.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת יישומי מודלים גדולים של שפה בקוד פתוח עם ביצועים גבוהים, שתוכננו מההתחלה לפיתוח AI אחראי בהשוואה למודלים בגודל דומה.