מדריך אינטראקטיבי לפילוח תמונות

תמונות זו לצד זו שבהן מוצגת תמונה של כיסא בתמונה אחת, ואז אותה תמונה עם הכיסא מודגש כדי לציין שהמודל זיהה את הכיסא

המשימה 'פילוח תמונות אינטראקטיבי' ב-MediaPipe מאפשרת לחלק תמונה לשני אזורים: אובייקט שנבחר וכל השאר. המשימה מקבלת מיקום בתמונה, מעריכה את הגבולות של אובייקט במיקום הזה ומחזירה את נתוני התמונה שמגדירים את האזור של האובייקט. אפשר להשתמש במשימה הזו כדי לבחור אובייקט בתמונה באופן אינטראקטיבי, ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כמו שכבות-על צבעוניות שמדגישות את האובייקט או מטשטשות את הרקע שמסביבו. המשימה הזו פועלת על נתוני תמונות באמצעות מודל למידת מכונה (ML), וניתן להשתמש בה בתמונות בודדות, בקובצי וידאו או בשידור וידאו רציף.

רוצים לנסות?

תחילת העבודה

כדי להתחיל להשתמש במשימה הזו, פועלים לפי אחד מהמדריכים הבאים להטמעה בפלטפורמת היעד. המדריכים הספציפיים לפלטפורמות האלה כוללים הנחיות להטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמת קוד עם אפשרויות ההגדרה המומלצות:

פרטי המשימה

בקטע הזה מוסבר על היכולות, הקלט, הפלט והאפשרויות להגדרה של המשימה הזו.

תכונות

  • עיבוד תמונות קלט – העיבוד כולל סיבוב תמונות, שינוי גודל, נורמליזציה והמרה של מרחב צבעים.
קלט של משימות פלט של משימות
  • קואורדינטות של נקודת עניין לאובייקט בתמונה
  • קובץ התמונה לעיבוד
הכלי לפילוח תמונות אינטראקטיבי מניב נתוני תמונות מפלחים, שיכולים לכלול אחד או שניהם מהפריטים הבאים, בהתאם לאפשרויות ההגדרה שהגדרתם:
  • CATEGORY_MASK: רשימה שמכילה מסכה מחולקת כתמונה בפורמט uint8. כל ערך פיקסל מציין אם הוא חלק מהאובייקט שנמצא באזור העניין.
  • CONFIDENCE_MASK: רשימה של ערוצים שמכילה מסכה מחולקת עם ערכי פיקסלים בפורמט float32. כל ערך פיקסל מציין את רמת האמון שהוא חלק מהאובייקט שנמצא באזור העניין.

אפשרויות הגדרה

למשימה הזו יש את אפשרויות ההגדרה הבאות:

שם האפשרות תיאור טווח ערכים ערך ברירת מחדל
output_category_mask אם הערך מוגדר כ-True, הפלט כולל מסכת פילוח כתמונה מסוג uint8, שבה כל ערך פיקסל מציין אם הפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. {True, False} False
output_confidence_masks אם הערך מוגדר כ-True, הפלט כולל מסכת פילוח בתור תמונה של ערך צף, כאשר כל ערך צף מייצג את רמת האמון שהפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. {True, False} True
display_names_locale הגדרת השפה של התוויות לשימוש בשמות התצוגה שסופקו במטא-נתונים של מודל המשימה, אם הם זמינים. ברירת המחדל היא en לאנגלית. אפשר להוסיף תוויות מותאמות לשוק המקומי למטא-נתונים של מודל מותאם אישית באמצעות TensorFlow Lite Metadata Writer API קוד לוקאל en

דגמים

אפשר להשתמש בכלי לחלוקת תמונות אינטראקטיביות עם יותר ממודל אחד של למידת מכונה. כשמתחילים לפתח את המשימה הזו, מומלץ להתחיל עם המודל המומלץ שמוגדר כברירת מחדל בפלטפורמת היעד. במודלים האחרים הזמינים, בדרך כלל יש פשרות בין הביצועים, הדיוק, הרזולוציה ודרישות המשאבים, ובמקרים מסוימים הם כוללים תכונות נוספות.

המודל הזה מזהה פלחים על סמך קואורדינטות של תמונה לאזור עניין. המודל מבוסס על רשת נוירונים קונבולוציונית (CNN), בדומה לארכיטקטורה של MobileNetV3, עם מפענח מותאם אישית.

שם דגם צורת הקלט סוג הקידוד כרטיס מודל גרסאות
MagicTouch 512 x 512 x 4 None‏ (float32) info חדש

נקודות השוואה של משימות

בהמשך מפורטות נקודות השוואה של המשימות לצינור עיבוד הנתונים כולו, על סמך המודלים המאומןים מראש שצוינו למעלה. תוצאת זמן האחזור היא זמן האחזור הממוצע ב-Pixel 6 באמצעות מעבד או יחידת עיבוד גרפי (GPU).

שם דגם זמן האחזור של המעבד (CPU) זמן אחזור של GPU
MagicTouch 130.11 אלפיות השנייה 67.25 אלפיות השנייה