ההנחיה וההוראות למערכת של PaliGemma

בדף הזה מתוארים הפורמט של ההנחיות וההוראות למערכת של מודלים של PaliGemma. הווריאנטים האלה של מודלים של Gemma משתמשים באותו פורמט כללי כמו מודלים בסיסיים של Gemma, וגם תומכים בתחביר מיוחד למשימות ספציפיות שקשורות לתמונות.

פורמט ההנחיה

במודלים של PaliGemma נעשה שימוש באותו פורמט של הנחיות כמו במודלים הבסיסיים של Gemma, שעליה הם מבוססים. עם זאת, מודלים של PaliGemma תומכים גם בתחביר מיוחד של משימות, שמתואר בקטע הבא. למידע נוסף על פורמט ההנחיות של Gemma, קראו את המאמר הנחיות למערכת ולתווית של Gemma.

סדר הנתונים של התמונות והטקסט

כשאתם מעבירים למודלים של PaliGemma נתוני טקסט ותמונה, תמיד צריך לספק את נתוני התמונה קודם, ואז את נתוני הטקסט. בדרך כלל, היפוך הסדר של נתוני ההנחיות לתמונות ולטקסט או שילוב של נתוני תמונות וטקסט יגרמו ליצירת תשובות שלא ניתן להשתמש בהן.

תחביר של הנחיה למשימה

מודלים של PaliGemma עוברים אימון עם דפוסים ותחביר ספציפיים של הנחיות למשימות כמו זיהוי אובייקטים והוספת כיתוב לתמונות. אפשר להשתמש בתחביר של המשימה הזו כדי לבקש התנהגות ספציפית מהמודלים של PaliGemma, באופן הבא:

  • "cap {lang}\n": כותרת קצרה מאוד ותמציתית (מ-WebLI-alt)
  • "caption {lang}\n": כתוביות קצרות ותואמות ל-COCO
  • "describe {lang}\n": כתוביות ארוכות יותר ומתארויות יותר
  • "ocr": זיהוי תווים אופטי (OCR)
  • "answer {lang} {question}\n": מענה לשאלות לגבי תוכן התמונה
  • "question {lang} {answer}\n": יצירת שאלה לתשובה נתונה
  • "detect {object} ; {object}\n": איתור אובייקטים שמפורטים בתמונה והחזרת תיבות הסף שלהם
  • "segment {object}\n": מאתרים את האזור שבו נמצא האובייקט בתמונה כדי ליצור פילוח תמונה של האובייקט

האפשרויות של {lang} הן לקודי שפות. כשמשתמשים באפשרות הזו, PaliGemma תומך בזיהוי שפה של 34 שפות שונות להנחיות למשימות. הרשימה של השפות הנתמכות מופיעה ב-GitHub.

דוגמאות מפורטות לקוד שממחישות איך להשתמש בסנטקס הזה מפורטות במדריך יצירת פלט של PaliGemma באמצעות Keras.

פקודות הנחיה מקובצות

אפשר לספק יותר מפקודת הנחיה אחת בהנחיה אחת, כקבוצה של הוראות. כל הפקודות של ההנחיות חייבות להסתיים בתווית \n. הדוגמה הבאה ממחישה איך לבנות את טקסט ההנחיה כדי לספק כמה הוראות.

prompts = [
    'answer en where is the cow standing?\n',
    'answer en what color is the cow?\n',
    'describe en\n',
    'detect cow\n',
    'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
    inputs={
        "images": images,
        "prompts": prompts,
    }
)
for output in outputs:
    print(output)

הוראות למערכת

מודלים של PaliGemma לא תומכים בהוראות מערכת נוספות מעבר להוראות המערכת של Gemma מהמודלים הבסיסיים שעליהם הם מבוססים.