PaliGemma
PaliGemma הוא מודל שפה פתוח ופתוח (VLM) שמבוסס על PaLI-3, ומבוסס על רכיבים פתוחים כמו מודל הראייה שלSigLIP ומודל השפה של Gemma. ב-PaliGemma משתמשים גם בתמונות וגם בטקסט, ויכולים לענות על שאלות לגבי תמונות עם פירוט והקשר. המשמעות היא ש-PaliGemma יכולה לבצע ניתוח מעמיק יותר של תמונות ולספק תובנות מועילות, כמו הוספת כיתוב לתמונות ולסרטונים קצרים, זיהוי אובייקטים וקריאת טקסט שמוטמע בתמונות.
יש שתי קבוצות של מודלים של PaliGemma, קבוצה למטרה כללית וקבוצה מוכוונת מחקר:
- PaliGemma – מודלים שעברו אימון מקדים לשימוש כללי, שאפשר להתאים אותם למגוון משימות.
- PaliGemma-FT – מודלים מוכווני מחקר שממוקדים במערכי נתונים ספציפיים של מחקר.
בין היתרונות המרכזיים של מודעות למכירת רכב:
-
הבנה מרובת מצבים
בו-זמנית מבין תמונות וטקסט. -
דגם בסיס רב-תכליתי
ניתן לבצע כוונון עדין למגוון רחב של משימות בשפות ראייה. -
ניתוח בשטח
מגיע עם נקודת ביקורת שמעוטרת בתערובת של משימות לשימוש מיידי במחקר.