מדריך אינטראקטיבי לפילוח תמונות

המשימה 'פלח תמונות אינטראקטיבי של MediaPipe' מאפשרת לחלק את התמונה לשני אזורים: אובייקט נבחר וכל השאר. המשימה מקבלת מיקום בתמונה, מבצעת הערכה של גבולות האובייקט במיקום הזה ומחזירה נתוני תמונה שמגדירים את אזור האובייקט. במשימה הזו אפשר לבחור אובייקט בתמונה באופן אינטראקטיבי ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כמו שכבות-על בצבע שמדגישות את האובייקט או טשטוש של הרקע שמסביבו. המשימה מבוססת על נתוני תמונה באמצעות מודל למידת מכונה (ML), ואפשר להשתמש בה בתמונות בודדות, בקובצי וידאו או בשידור וידאו רציף.

כדאי לנסות!

מתחילים

כדי להתחיל להשתמש במשימה הזו, כדאי לפעול לפי אחד ממדריכי ההטמעה האלה בהתאם לפלטפורמת היעד. במדריכים הבאים שספציפיים לפלטפורמה תמצאו הנחיות איך לבצע הטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמה לקוד עם אפשרויות הגדרה מומלצות:

פרטי המשימה

בקטע הזה מתוארות היכולות, הקלט, הפלט ואפשרויות ההגדרה של המשימה הזו.

תכונות

  • עיבוד תמונות קלט – העיבוד כולל סיבוב תמונות, שינוי גודל, נירמול והמרת מרחב צבעים.
קלט למשימות פלט המשימות
  • קואורדינטות של נקודות עניין של אובייקט בתמונה
  • קובץ תמונה לעיבוד
נתוני תמונות מפולחים של פלחים אינטראקטיביים של תמונות יכולים לכלול אחת מהאפשרויות הבאות או את שתיהן, בהתאם לאפשרויות ההגדרה שהגדרת:
  • CATEGORY_MASK: רשימה שמכילה מסכה מפולחת כתמונה בפורמט uint8. כל ערך פיקסל מציין אם הוא חלק מהאובייקט שנמצא באזור העניין.
  • CONFIDENCE_MASK: רשימה של ערוצים שמכילים מסכה מפולחת עם ערכי פיקסלים בפורמט float32. כל ערך פיקסל מציין את רמת הביטחון שהוא חלק מהאובייקט שממוקם באזור העניין.

אפשרויות של הגדרות אישיות

במשימה הזאת קיימות אפשרויות ההגדרה הבאות:

שם האפשרות תיאור טווח ערכים ערך ברירת מחדל
output_category_mask אם המדיניות מוגדרת כ-True, הפלט כולל מסכת פילוח כתמונה של Uint8, שבה כל ערך של פיקסל מציין אם הפיקסל הוא חלק מהאובייקט שנמצא באזור הרצוי. {True, False} False
output_confidence_masks אם היא מוגדרת כ-True, הפלט כולל מסכת פילוח כתמונה של ערך צף, כאשר כל ערך צף מייצג את הביטחון שהפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. {True, False} True
display_names_locale ההגדרה הזו מגדירה את השפה של התוויות שישמשו לשמות תצוגה שנמסרים במטא-נתונים של מודל המשימה, אם יש כאלה. ברירת המחדל היא en עבור אנגלית. אפשר להוסיף תוויות שהותאמו לשוק המקומי למטא-נתונים של מודל מותאם אישית באמצעות TensorFlow Lite Metadata Writer API קוד הלוקאל en

דגמים

אפשר להשתמש ב'פלח התמונות האינטראקטיבי' עם יותר ממודל אחד של למידת מכונה. כשמתחילים לפתח במשימה הזו, כדאי להתחיל עם מודל ברירת המחדל המומלץ לפלטפורמת היעד. בדרך כלל, המודלים הזמינים האחרים מתלווים בין דרישות של ביצועים, דיוק, רזולוציה ומשאבים, ובמקרים מסוימים, הם כוללים תכונות נוספות.

המודל הזה מזהה קטעים בהינתן קואורדינטות של תמונה עבור אזור עניין. במודל נעשה שימוש ברשת עצבית מתקפלת, בדומה לארכיטקטורה של MobileNetV3, עם מפענח בהתאמה אישית.

שם הדגם צורת הקלט סוג הכמות כרטיס דגם גרסאות
MagicTouch 512 x 512 x 4 ללא (float32) מידע האחרון

נקודות השוואה למשימות

אלה נקודות ההשוואה למשימות לגבי כל צינור עיבוד הנתונים, בהתבסס על המודלים שהוכשרו מראש למעלה. זמן האחזור הוא זמן האחזור הממוצע ב-Pixel 6 כשמשתמשים במעבד (CPU) או ב-GPU.

שם דגם זמן אחזור של המעבד (CPU) זמן אחזור של GPU
MagicTouch 130.11 אלפיות השנייה 67.25 אלפיות השנייה