הבנת תמונות

Gemma 4, המודל החדש ביותר בסדרת Gemma, יכול לבצע מגוון רחב של משימות שקשורות לשילוב בין ראייה ושפה, כמו זיהוי אובייקטים, זיהוי תווים אופטי (OCR), מענה לשאלות על תמונות, יצירת כיתובים לתמונות וניתוח של כמה תמונות. הוא גם תומך בעיבוד ברזולוציה משתנה, שמאפשר לכם לאזן בין מהירות ההסקה לבין דיוק הפלט.

בקטע הזה נסביר איך להכין נתונים חזותיים ולהשתמש בהם ביעילות בהנחיות.

נתונים חזותיים

נתונים חזותיים יכולים להופיע בפורמטים וברזולוציות שונות. פורמטי הקבצים הספציפיים שנתמכים (כמו JPEG ו-PNG) תלויים במסגרת שבוחרים להמיר את הנתונים החזותיים לטנסורים.

אלה הדברים העיקריים שחשוב לדעת כשמכינים נתונים חזותיים ל-Gemma:

  • עלות בטוקנים: כל תמונה בדרך כלל משתמשת ב-256 טוקנים, אבל העלות בטוקנים של תמונות PaliGemma משתנה בהתאם למודל הספציפי שנבחר.
  • רזולוציה: הרזולוציה המפורשת – כלומר מספר הפיקסלים שמקודדים לטוקנים ומעובדים על ידי המודל – תלויה בגרסת Gemma שבה אתם משתמשים:
    • Gemma 4: רזולוציה משתנה על סמך תקציב הטוקנים. אתם יכולים לבחור בין גדלים של תקציב: 70,‏ 140,‏ 280,‏ 560 או 1,120 טוקנים. הגודל שתבחרו יקבע את מידת השינוי של גודל תמונת הקלט ואת מידת העיבוד שלה.
    • Gemma 3: (4B ומעלה) רזולוציה של ‎896x896, עם אפשרויות של pan-and-scan לתמונות גדולות יותר.
    • Gemma 3n: רזולוציה של ‎256x256,‏ ‎512x512 או ‎768x768
    • PaliGemma 2: רזולוציה של ‎224x224,‏ ‎448x448 או ‎896x896

תמונות ברזולוציה נמוכה יותר עוברות עיבוד מהר יותר, אבל הן כוללות פחות פרטים חזותיים. כדי לשפר את מהירות ההסקה, מומלץ לספק נתונים חזותיים שתואמים לאחת מהרזולוציות המובנות של מודל Gemma שבחרתם.

רזולוציה משתנה ותקציבי טוקנים

מודלים של Gemma 4 מציגים את היכולת לעבד תמונות ברזולוציות שונות, ומאפשרים לכם להתאים את הקלט החזותי למשימה הספציפית שלכם. לדוגמה, יכול להיות שתבחרו ברזולוציה גבוהה כדי לזהות פרטים קטנים בזיהוי אובייקטים, אבל רזולוציה נמוכה יותר תהיה עדיפה לניתוח של פריימים ספציפיים בסרטון כדי להאיץ את העיבוד. בסופו של דבר, התכונה הזו מאפשרת לכם לאזן בין מהירות ההסקה לבין הדיוק של הייצוג החזותי.

אתם יכולים לנהל את האיזון הזה באמצעות תקציב אסימונים. התקציב הזה מגדיר מגבלה קשיחה על מספר הטוקנים החזותיים (שנקראים גם הטמעות של טוקנים חזותיים) שהמודל יכול ליצור לתמונה אחת.

אפשר לבחור תקציב של 70, 140, 280, 560 או 1, 120 אסימונים:

  • תקציבים גבוהים (למשל, 1,120 טוקנים): שמירה על רזולוציה גבוהה יותר של התמונה. כך נוצרים יותר תיקונים שהמודל יכול לעבד, ולכן הוא מתאים במיוחד ללכידת פרטים מדויקים ומורכבים.
  • תקציבים נמוכים (למשל, 70 טוקנים): התמונה תוקטן, ולכן יהיו פחות תיקונים. הפעולה הזו מקצרת באופן משמעותי את זמני ההסקה.

איך התקציב פועל תקציב הטוקנים קובע ישירות את מידת השינוי של גודל התמונה, על ידי הגדרת המספר המקסימלי של תיקוני תמונה ראשוניים. המערכת יוצרת פי תשעה תיקונים מהתקציב שבחרתם. לדוגמה, תקציב של 280 אסימונים יניב עד 2,520 תיקונים (280 × 9).

המכפיל 9 נובע מהאופן שבו הטלאים נדחסים: במהלך העיבוד, המודל לוקח כל רשת 3x3 של טלאים סמוכים ומחשב את הממוצע שלהם כדי ליצור הטמעה אחת. ההטמעות המאוחדות האלה הופכות לטוקנים החזותיים הסופיים. לכן, תקציב טוקנים גבוה יותר מניב יותר הטמעות סופיות, ומאפשר למודל לחלץ מידע עשיר ומפורט יותר מהנתונים החזותיים.

מה לעשות

ריכזנו כאן כמה שיטות מומלצות לכתיבת הנחיות ל-Gemma עם נתונים חזותיים.

  • להיות ספציפיים: אם יש לכם משימות ספציפיות, חשוב לספק מספיק הקשר והנחיות. במקום "תאר את התמונה הזו", אפשר לנסות "תאר את הסצנה בתמונה הזו, תוך התמקדות בקשר בין האנשים לאובייקטים".

  • הגדרת אילוצים: כדי לקבל סגנון או טון מסוימים, חשוב לציין אותם בהנחיה. לדוגמה, במקום לבקש סיפור כללי, אפשר לבקש מ-Gemma: "תכתוב סיפור קצר מידע על התמונה הזו בסגנון של סרט אפל".

  • שיפור איטרטיבי: כדי לקבל את הפלט הרצוי, לעיתים קרובות צריך להתנסות ולשפר את ההנחיות. מתחילים בהנחיה בסיסית ומוסיפים מורכבות בהדרגה.

מה לא לעשות

ריכזנו כמה דברים שכדאי להימנע מהם כשמנחים את Gemma באמצעות נתונים חזותיים.

  • צפויים מספרים מדויקים לאובייקטים צפופים במיוחד: למרות ש-Gemma 4 מצטיין בזיהוי אובייקטים וב-OCR, יכול להיות שהוא עדיין יספק קירובים ולא מספרים מדויקים לאובייקטים צפופים במיוחד או זעירים (למשל, ספירת עלים בודדים של דשא). כדי להשיג את רמת הדיוק הכי גבוהה במשימות ויזואליות, מומלץ להשתמש בתקציב טוקנים גבוה יותר.

  • הנחיות מעורפלות או דו-משמעיות: במקום הנחיות כלליות כמו "צור משהו על סמך התמונה הזו", כדאי לתת הוראות ספציפיות כדי לקבל את התוצאות הרצויות. צריך להגדיר בבירור מהו ה "משהו". לדוגמה, שיר, מתכון או קטע קוד.