PaliGemma

PaliGemma הוא מודל שפה פתוח וקליל ופתוח (VLM) בהשראת PaLI-3, ועל סמך רכיבים פתוחים כמו SigLIP של מודל ראייה מעובדת ושפת Gemma מודל. PaliGemma לוקחת גם תמונות וגם טקסט כקלט, ויכולה לענות על שאלות של תמונות עם פירוט והקשר. כלומר, PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כיתוב לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתוך תמונות.

יש שתי קבוצות של מודלים של PaliGemma, קבוצה של שימוש כללי וקבוצה מוכוונת מחקר:

  • PaliGemma – מודלים שאומנו מראש לשימוש כללי, שאפשר לכוונן אותם לביצוע מגוון משימות.
  • PaliGemma-FT – מודלים מוכווני מחקר שכווננו במיוחד למערכי נתונים ספציפיים של מחקר.

בין היתרונות המרכזיים:

  • בו-זמנית מבין תמונות וטקסט.
  • ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה.
  • מגיע עם נקודת ביקורת שמעוטרת בתערובת של משימות לשימוש מיידי במחקר.

מידע נוסף

כרטיס המודל של PaliGemma מכיל מידע מפורט על המודל, מידע על היישום, מידע על ההערכה, השימוש במודל והמגבלות שלו ועוד.
כאן אפשר לראות קוד נוסף, מחברות של Colab, מידע ודיונים על PaliGemma ב-Kaggle.
מריצים דוגמה פועלת לכוונון עדין של PaliGemma עם JAX ב-Colab.