כרטיס מודל FunctionGemma

דף המודל: FunctionGemma

משאבים ומסמכים טכניים:

תנאים והגבלות: תנאים
מחברים: Google DeepMind

פרטי הדגם

תיאור קצר והגדרה תמציתית של הקלטים והפלטים.

תיאור

הערה: מודל FunctionGemma מיועד לכוונון עדין למשימה ספציפית של קריאה לפונקציה, כולל תרחישי שימוש מרובי-תורות.

‫FunctionGemma הוא מודל קל משקל ופתוח של Google, שנועד לשמש כבסיס ליצירת מודלים מותאמים אישית משלכם לקריאה לפונקציות. המודל FunctionGemma לא מיועד לשימוש כמודל דיאלוג ישיר, והוא מתוכנן לספק ביצועים גבוהים אחרי שיפור נוסף, כמו שמקובל במודלים בגודל הזה. ‫FunctionGemma מבוסס על מודל Gemma 3 270M ועל אותם מחקר וטכנולוגיה ששימשו ליצירת מודלי Gemini. הוא אומן במיוחד לביצוע קריאות לפונקציות. למודל יש את אותה ארכיטקטורה כמו ל-Gemma 3, אבל הוא משתמש בפורמט שיחה שונה. המודל מתאים מאוד לקריאה לפונקציות שמבוססת על טקסט בלבד. הגודל הקטן הייחודי מאפשר פריסה בסביבות עם משאבים מוגבלים, כמו מחשבים ניידים, מחשבים או תשתית ענן משלכם, ובכך מאפשר גישה למודלים מתקדמים של AI ומעודד חדשנות לכולם. בנוסף, בדומה ל-Gemma 270M הבסיסי, המודל עבר אופטימיזציה כדי להיות מגוון מאוד, עם ביצועים טובים במגוון חומרה בתרחישים של אינטראקציה אחת, אבל כדי להשיג את הדיוק הכי טוב בתחומים ספציפיים, צריך לבצע כוונון עדין של המודל על נתונים ספציפיים של משימות עם אינטראקציה אחת או כמה אינטראקציות. כדי להדגים איך התאמה אישית של מודל עם 270 מיליון פרמטרים יכולה להשיג ביצועים גבוהים בתהליכי עבודה ספציפיים של סוכנים, הדגשנו שני תרחישי שימוש באפליקציית Google AI Edge Gallery.

  • Tiny Garden: מודל שעבר כוונון עדין כדי להפעיל משחק אינטראקטיבי בשליטה קולית. הוא מטפל בלוגיקה של המשחק כדי לנהל חלקה וירטואלית של אדמה, מפרק פקודות כמו 'לשתול חמניות בשורה העליונה' ו'להשקות את הפרחים בחלקות 1 ו-2' לפונקציות ספציפיות לאפליקציה (למשל, plant_seed,‏ water_plots) ומתאם בין יעדים. הדוגמה הזו ממחישה את היכולת של המודל להפעיל מנגנונים מותאמים אישית באפליקציה בלי קישוריות לשרת.

  • פעולות בנייד: כדי לאפשר למפתחים ליצור סוכנים מומחים משלהם, פרסמנו מערך נתונים ומתכון לכוונון עדין שמדגימים כוונון עדין של FunctionGemma. היא מתרגמת קלט של משתמשים (למשל, ‫("Create a calendar event for lunch",‏ "Turn on the flashlight") לשיחות לפונקציות שמפעילות כלים של מערכת ההפעלה Android. במחברת האינטראקטיבית הזו מוסבר איך לקחת את מודל הבסיס FunctionGemma וליצור ממנו התאמה עדינה של 'פעולות בנייד' מאפס, לשימוש באפליקציית הגלריה Google AI Edge. במקרה השימוש הזה מוצגת היכולת של המודל לפעול כסוכן פרטי אופליין לביצוע משימות במכשיר אישי.

קלט ופלט

  • קלט:
    • מחרוזת טקסט, כמו שאלה, הנחיה או מסמך לסיכום
    • הקשר קלט כולל של 32,000 טוקנים
  • פלט:
    • טקסט שנוצר בתגובה לקלט, כמו תשובה לשאלה או סיכום של מסמך
    • ההקשר הכולל של הפלט הוא עד 32,000 טוקנים לכל בקשה, בניכוי הטוקנים של קלט הבקשה

נתוני המודל

הנתונים ששימשו לאימון המודל ואופן העיבוד שלהם.

מערך נתונים לאימון

המודלים האלה אומנו על מערך נתונים של נתוני טקסט שכולל מגוון רחב של מקורות. המודל אומן עם 6T טוקנים. תאריך סיום תקופת הלמידה של נתוני האימון היה באוגוסט 2024. אלה הרכיבים העיקריים:

  • הגדרות של כלים ציבוריים – ממשקי API נפוצים שנמצאים באינטרנט
  • אינטראקציות עם כלים – אלה שילוב של הנחיות, קריאות לפונקציות, תשובות לפונקציות ותשובות בשפה טבעית מהמודל כדי לסכם את התשובה של הקריאה לפונקציה, או לבקש הבהרות כשההנחיה לא ברורה או לא מלאה.

עיבוד מקדים של נתונים

אלה השיטות העיקריות לניקוי ולסינון הנתונים שמוחלות על נתוני האימון:

  • סינון CSAM: סינון קפדני של CSAM (תוכן ויזואלי של התעללות מינית בילדים) בוצע בכמה שלבים בתהליך הכנת הנתונים כדי להבטיח החרגה של תוכן מזיק ולא חוקי.
  • סינון נתונים רגישים: כדי להפוך את המודלים של Gemma שאומנו מראש לבטוחים ומהימנים, השתמשנו בטכניקות אוטומטיות לסינון של פרטים אישיים מסוימים ונתונים רגישים אחרים ממערכי האימון.
  • שיטות נוספות: סינון על סמך איכות התוכן והבטיחות שלו בהתאם למדיניות שלנו.

פרטי הטמעה

פרטים על המבנה הפנימי של המודל.

חומרה

מודל Gemma אומן באמצעות חומרת Tensor Processing Unit (TPU) (TPUv4p, ‏ TPUv5p ו-TPUv5e). אימון מודלים של ראייה ושפה (VLMs) דורש כוח מחשוב משמעותי. יחידות TPU, שנועדו במיוחד לפעולות מטריצה שכיחות בלמידת מכונה, מציעות כמה יתרונות בתחום הזה:

  • ביצועים: יחידות TPU מיועדות במיוחד לטיפול בחישובים המסיביים שנדרשים לאימון של מודלים גדולים של שפה (VLM). הם יכולים לזרז את האימון באופן משמעותי בהשוואה למעבדי CPU.
  • זיכרון: ל-TPU יש בדרך כלל כמויות גדולות של זיכרון עם רוחב פס גבוה, שמאפשרות לטפל במודלים גדולים ובגדלים גדולים של אצווה במהלך האימון. כך אפשר לשפר את איכות המודל.
  • יכולת הרחבה: אשכולות TPU Pod (אשכולות גדולים של יחידות TPU) מספקים פתרון שניתן להרחבה לטיפול במורכבות הגוברת של מודלים גדולים בסיסיים. אפשר לחלק את האימון בין כמה מכשירי TPU כדי לעבד את הנתונים מהר יותר וביעילות רבה יותר.
  • יעילות מבחינת עלות: בתרחישים רבים, יחידות TPU יכולות לספק פתרון יעיל יותר מבחינת עלות לאימון מודלים גדולים בהשוואה לתשתית מבוססת-CPU, במיוחד כשמביאים בחשבון את הזמן והמשאבים שנחסכים בזכות אימון מהיר יותר.
  • היתרונות האלה תואמים להתחייבויות של Google לפעול באופן בר-קיימא.

תוכנה

האימון בוצע באמצעות JAX וML Pathways. ‫JAX מאפשר לחוקרים לנצל את היתרונות של הדור האחרון של חומרה, כולל TPUs, כדי לאמן מודלים גדולים בצורה מהירה ויעילה יותר. ‫ML Pathways הוא המאמץ האחרון של Google לבניית מערכות בינה מלאכותית (AI) שיכולות להכליל משימות מרובות. השיטה הזו מתאימה במיוחד למודלים בסיסיים, כולל מודלים גדולים של שפה כמו אלה.
השימוש ב-JAX וב-ML Pathways ביחד מתואר במאמר על משפחת המודלים של Gemini: "מודל התכנות 'בקר יחיד' של Jax ו-Pathways מאפשר לתהליך Python יחיד לתזמן את כל תהליך האימון, וכך לפשט באופן משמעותי את תהליך הפיתוח".

הערכה

מדדים ותוצאות של הערכת מודל.

תוצאות ההשוואה לשוק

Benchmark n-shot Function Gemma 270m
BFCL Simple 0-shot 61.6
BFCL Parallel 0-shot 63.5
BFCL Multiple 0-shot 39
BFCL Parallel Multiple 0-shot 29.5
BFCL Live Simple 0-shot 36.2
BFCL Live Parallel 0-shot 25.7
BFCL Live Multiple 0-shot 22.9
BFCL Live Parallel Multiple 0-shot 20.8
רלוונטיות של BFCL 0-shot 61.1
חוסר רלוונטיות של BFCL 0-shot 70.6

ההשפעה על הביצועים אחרי כוונון עדין של מערך נתונים של פעולות בנייד
כדי להדגים את הערך של התמחות במודלים קטנים של שפה, השווינו את מודל הבסיס FunctionGemma למודל שעבר כוונון עדין באמצעות הוראות ההכנה 'פעולות בנייד'. התאמה עדינה שיפרה באופן משמעותי את היכולת של מודל FunctionGemma הבסיסי לזהות ולעצב בצורה נכונה קריאות למערכת בנייד.


דגם

תוצאות ההערכה של פעולות בנייד

מודל Gemma של פונקציית בסיס

58%

שיפור של פעולות בנייד

‫85%

ביצועים במכשיר של תרחישי שימוש שעברו כוונון עדין של Gemma 270m
בדקנו את תרחישי השימוש שעברו כוונון עדין במכשיר Samsung S25 Ultra כדי להעריך את זמן האחזור ואת טביעת הזיכרון במכשיר.

  • הקשר: 512 אסימונים למילוי מראש ו-32 אסימונים לפענוח.
  • חומרה: מעבד S25 Ultra באמצעות LiteRT XNNPACK delegate עם 4 תהליכים.

ביצועים של פעולות בנייד במכשיר


קצה עורפי (Backend)

סכמת קוונטיזציה

חלון ההקשר

מילוי אוטומטי (טוקנים לשנייה)

פענוח (אסימונים לשנייה)

הזמן עד לקבלת הטוקן הראשון (שניות)

גודל המודל (MB)

זיכרון RSS בשיא (MB)

מעבד

dynamic_int8

1024

1718

‫125.9

0.3

288

551

Tiny Garden On Device Performance


קצה עורפי (Backend)

סכמת קוונטיזציה

חלון ההקשר

מילוי אוטומטי (טוקנים לשנייה)

פענוח (אסימונים לשנייה)

הזמן עד לקבלת הטוקן הראשון (שניות)

גודל המודל (MB)

זיכרון RSS בשיא (MB)

מעבד

dynamic_int8

1024

1743

125.7

0.3

288

549

אתיקה ובטיחות

הגישה והתוצאות של הערכת האתיקה והבטיחות.

גישת ההערכה

שיטות ההערכה שלנו כוללות הערכות מובנות ובדיקות פנימיות של מדיניות תוכן רלוונטית. הבדיקה בוצעה על ידי מספר צוותים שונים, שלכל אחד מהם היו מטרות שונות ומדדים שונים להערכה אנושית. המודלים האלה נבדקו לפי מספר קטגוריות שרלוונטיות לאתיקה ולבטיחות, כולל:

  • בטיחות ילדים: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט בנושא מדיניות בטיחות ילדים, כולל התעללות מינית בילדים וניצול ילדים.
  • בטיחות תוכן: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט, שכוללת מדיניות בטיחות בנושאים כמו הטרדה, אלימות ודם, ודברי שטנה.
  • נזקים מייצוג: הערכה של הנחיות ליצירת טקסט מטקסט ותמונות מטקסט, שכוללת מדיניות בטיחות בנושאים כמו הטיה, סטריאוטיפים, שיוכים מזיקים או אי דיוקים.

תוצאות הבדיקה

בכל התחומים של בדיקות הבטיחות, חל שיפור משמעותי בקטגוריות של בטיחות ילדים, בטיחות תוכן ונזקים מייצוגיים בהשוואה למודלים קודמים של Gemma. כל הבדיקות בוצעו ללא מסנני בטיחות כדי להעריך את היכולות וההתנהגויות של המודל. המודל הפיק הפרות מדיניות מינימליות, והראה שיפורים משמעותיים בביצועים בהשוואה למודלים קודמים של Gemma, בכל הנוגע להסקת מסקנות לא מבוססות. מגבלה של ההערכות שלנו הייתה שהן כללו רק הנחיות בשפה האנגלית.

שימוש ומגבלות

למודלים האלה יש מגבלות מסוימות שהמשתמשים צריכים להיות מודעים להן.

שימוש מיועד

המודל הזה לא מיועד לשימוש כמודל לדיאלוג ישיר.
למודלים גדולים של שפה (LLM) יש מגוון רחב של שימושים בתעשיות ובתחומים שונים. הרשימה הבאה של שימושים פוטנציאליים לא מקיפה את כל האפשרויות. מטרת הרשימה הזו היא לספק מידע הקשרי על תרחישים לדוגמה שאליהם התייחסו יוצרי המודל כחלק מתהליך האימון והפיתוח של המודל.

  • יצירת תוכן ותקשורת
    • יצירת טקסט: אפשר להשתמש במודלים האלה כדי ליצור טקסטים יצירתיים, כמו שירים, סקריפטים, קוד, טקסט שיווקי וטיוטות של אימיילים.
    • צ'אט בוטים ו-AI בממשק שיחה: הפעלת ממשקי שיחה לשירות לקוחות, עוזרים וירטואליים או אפליקציות אינטראקטיביות.
    • סיכום טקסט: יצירת סיכומים תמציתיים של מאגר טקסטים, עבודות מחקר או דוחות.
  • מחקר וחינוך
    • מחקר בתחום עיבוד השפה הטבעית (NLP): המודלים האלה יכולים לשמש בסיס לחוקרים להתנסות בטכניקות של NLP, לפתח אלגוריתמים ולתרום להתקדמות בתחום.
    • כלים ללימוד שפות: תמיכה בחוויות אינטראקטיביות של לימוד שפות, עזרה בתיקון דקדוק או מתן תרגול בכתיבה.
    • חיפוש מידע: עוזר לחוקרים לחפש מידע במאגרי טקסט גדולים על ידי יצירת סיכומים או מתן תשובות לשאלות בנושאים ספציפיים.

מגבלות

  • נתוני אימון
    • האיכות והמגוון של נתוני האימון משפיעים באופן משמעותי על היכולות של המודל. הטיות או פערים בנתוני האימון עלולים להוביל למגבלות בתשובות של המודל.
    • ההיקף של מערך הנתונים לאימון קובע את תחומי הנושאים שהמודל יכול לטפל בהם ביעילות.
  • הקשר ומורכבות המשימה
    • המודלים טובים יותר במשימות שאפשר להגדיר באמצעות הנחיות והוראות ברורות. יכול להיות שיהיה קשה לבצע משימות פתוחות או מורכבות מאוד.
    • הביצועים של מודל יכולים להיות מושפעים מכמות ההקשר שסופקה (הקשר ארוך יותר בדרך כלל מוביל לתוצאות טובות יותר, עד לנקודה מסוימת).
  • דו-משמעות וניואנסים בשפה
    • שפה טבעית היא מורכבת מטבעה. יכול להיות שלמודלים יהיה קשה להבין ניואנסים עדינים, סרקזם או שפה ציורית.
  • דיוק עובדתי
    • מודלים יוצרים תשובות על סמך מידע שהם למדו ממערכי הנתונים לאימון שלהם, אבל הם לא בסיסי ידע. הם עשויים ליצור הצהרות עובדתיות שגויות או לא עדכניות.
  • Common Sense
    • המודלים מסתמכים על דפוסים סטטיסטיים בשפה. יכול להיות שהם לא יוכלו להשתמש בהיגיון בריא במצבים מסוימים.

שיקולים אתיים וסיכונים

פיתוח של מודלים גדולים של שפה (LLMs) מעלה כמה חששות אתיים. בתהליך היצירה של מודל פתוח, הקפדנו להתייחס לנקודות הבאות:

  • הטיה והוגנות
    • מודלים גדולים של שפה שאומנו על נתוני טקסט בקנה מידה גדול מהעולם האמיתי יכולים לשקף הטיה חברתית-תרבותית שמוטמעת בחומר האימון. המודלים האלה עברו בדיקה מדוקדקת, עיבוד מוקדם של נתוני הקלט כפי שמתואר כאן, והערכות פוסטריוריות שדווחו בכרטיס הזה.
  • מידע מוטעה ושימוש לרעה
  • שקיפות ואחריותיות:
    • בכרטיס המודל הזה מופיע סיכום של פרטים על הארכיטקטורה, היכולות, המגבלות ותהליכי ההערכה של המודלים.
    • מודל פתוח שפותח בצורה אחראית מאפשר לשתף חדשנות על ידי הנגשת טכנולוגיית LLM למפתחים ולחוקרים בסביבה העסקית של ה-AI.

סיכונים שזוהו ודרכים לצמצום שלהם:

  • הנצחת הטיות: מומלץ לבצע מעקב רציף (באמצעות מדדי הערכה, בדיקה אנושית) ולחקור טכניקות להסרת הטיות במהלך אימון המודל, כוונון עדין של המודל ותהליכים אחרים.
  • יצירת תוכן מזיק: חיוני להשתמש במנגנונים ובהנחיות לשמירה על בטיחות התוכן. אנחנו ממליצים למפתחים לנקוט משנה זהירות ולהטמיע אמצעי הגנה מתאימים לבטיחות תוכן בהתאם למדיניות המוצר הספציפית ולתרחישי השימוש באפליקציה שלהם.
  • שימוש לרעה למטרות זדוניות: מגבלות טכניות והדרכה למפתחים ולמשתמשי קצה יכולים לעזור לצמצם את הסיכון לשימוש זדוני ב-LLM. אנחנו מספקים למשתמשים מקורות מידע ומנגנוני דיווח כדי לסמן שימוש לרעה. השימושים האסורים במודלים של Gemma מפורטים במדיניות בנושא שימוש אסור ב-Gemma.
  • הפרות פרטיות: המודלים אומנו על נתונים שעברו סינון כדי להסיר פרטים אישיים מזהים (PII). מומלץ למפתחים לפעול בהתאם לתקנות בנושא פרטיות באמצעות טכניקות לשמירה על פרטיות.

יתרונות

בזמן ההשקה, משפחת המודלים הזו מספקת יישומים של מודלים גדולים של שפה (LLM) בקוד פתוח עם ביצועים גבוהים, שנועדו מלכתחילה לפיתוח AI אחראי, בהשוואה למודלים בגודל דומה.