PaliGemma

PaliGemma הוא מודל שפה פתוח ופתוח (VLM) שמבוסס על PaLI-3, ומבוסס על רכיבים פתוחים כמו מודל הראייה שלSigLIP ומודל השפה של Gemma. ב-PaliGemma משתמשים גם בתמונות וגם בטקסט, ויכולים לענות על שאלות לגבי תמונות עם פירוט והקשר. המשמעות היא ש-PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כיתוב לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתמונות.

יש שתי קבוצות של מודלים של PaliGemma, קבוצה למטרה כללית וקבוצה מוכוונת מחקר:

  • PaliGemma – מודלים שעברו אימון מקדים לשימוש כללי, שאפשר להתאים אותם למגוון משימות.
  • PaliGemma-FT – מודלים מוכווני מחקר שממוקדים במערכי נתונים ספציפיים של מחקר.

בין היתרונות המרכזיים של מודעות למכירת רכב:

  • בו-זמנית מבין תמונות וטקסט.
  • ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה.
  • מגיע עם נקודת ביקורת שמעוטרת בתערובת של משימות לשימוש מיידי במחקר.

מידע נוסף

כרטיס המודל של PaliGemma מכיל מידע מפורט על המודל, מידע על היישום, מידע על ההערכה, השימוש במודל והמגבלות שלו ועוד.
כאן אפשר לראות קוד נוסף, מחברות של Colab, מידע ודיונים על PaliGemma ב-Kaggle.
מריצים דוגמה פועלת לכוונון עדין של PaliGemma עם JAX ב-Colab.