המשימה 'פילוח תמונות אינטראקטיבי' ב-MediaPipe מאפשרת לחלק תמונה לשני אזורים: אובייקט שנבחר וכל השאר. המשימה מקבלת מיקום בתמונה, מעריכה את הגבולות של אובייקט במיקום הזה ומחזירה את נתוני התמונה שמגדירים את האזור של האובייקט. אפשר להשתמש במשימה הזו כדי לבחור אובייקט בתמונה באופן אינטראקטיבי, ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כמו שכבות-על צבעוניות שמדגישות את האובייקט או מטשטשות את הרקע שמסביבו. המשימה הזו פועלת על נתוני תמונות באמצעות מודל למידת מכונה (ML), וניתן להשתמש בה בתמונות בודדות, בקובצי וידאו או בשידור וידאו רציף.
תחילת העבודה
כדי להתחיל להשתמש במשימה הזו, פועלים לפי אחד מהמדריכים הבאים להטמעה בפלטפורמת היעד. המדריכים הספציפיים לפלטפורמות האלה כוללים הנחיות להטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמת קוד עם אפשרויות ההגדרה המומלצות:
- Android – דוגמה לקוד – מדריך
- Python – קוד לדוגמה – מדריך
- אינטרנט – דוגמה לקוד – מדריך
פרטי המשימה
בקטע הזה מוסבר על היכולות, הקלט, הפלט והאפשרויות להגדרה של המשימה הזו.
תכונות
- עיבוד תמונות קלט – העיבוד כולל סיבוב תמונות, שינוי גודל, נורמליזציה והמרה של מרחב צבעים.
קלט של משימות | פלט של משימות |
---|---|
|
הכלי לפילוח תמונות אינטראקטיבי מניב נתוני תמונות מפלחים, שיכולים לכלול אחד או שניהם מהפריטים הבאים, בהתאם לאפשרויות ההגדרה שהגדרתם:
|
אפשרויות הגדרה
למשימה הזו יש את אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
output_category_mask |
אם הערך מוגדר כ-True , הפלט כולל מסכת פילוח כתמונה מסוג uint8, שבה כל ערך פיקסל מציין אם הפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. |
{True, False } |
False |
output_confidence_masks |
אם הערך מוגדר כ-True , הפלט כולל מסכת פילוח בתור תמונה של ערך צף, כאשר כל ערך צף מייצג את רמת האמון שהפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. |
{True, False } |
True |
display_names_locale |
הגדרת השפה של התוויות לשימוש בשמות התצוגה שסופקו במטא-נתונים של מודל המשימה, אם הם זמינים. ברירת המחדל היא en לאנגלית. אפשר להוסיף תוויות מותאמות לשוק המקומי למטא-נתונים של מודל מותאם אישית באמצעות TensorFlow Lite Metadata Writer API
| קוד לוקאל | en |
דגמים
אפשר להשתמש בכלי לחלוקת תמונות אינטראקטיביות עם יותר ממודל אחד של למידת מכונה. כשמתחילים לפתח את המשימה הזו, מומלץ להתחיל עם המודל המומלץ שמוגדר כברירת מחדל בפלטפורמת היעד. במודלים האחרים הזמינים, בדרך כלל יש פשרות בין הביצועים, הדיוק, הרזולוציה ודרישות המשאבים, ובמקרים מסוימים הם כוללים תכונות נוספות.
דגם MagicTouch (מומלץ)
המודל הזה מזהה פלחים על סמך קואורדינטות של תמונה לאזור עניין. המודל מבוסס על רשת נוירונים קונבולוציונית (CNN), בדומה לארכיטקטורה של MobileNetV3, עם מפענח מותאם אישית.
שם דגם | צורת הקלט | סוג הקידוד | כרטיס מודל | גרסאות |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | None (float32) | info | חדש |
נקודות השוואה של משימות
בהמשך מפורטות נקודות השוואה של המשימות לצינור עיבוד הנתונים כולו, על סמך המודלים המאומןים מראש שצוינו למעלה. תוצאת זמן האחזור היא זמן האחזור הממוצע ב-Pixel 6 באמצעות מעבד או יחידת עיבוד גרפי (GPU).
שם דגם | זמן האחזור של המעבד (CPU) | זמן אחזור של GPU |
---|---|---|
MagicTouch | 130.11 אלפיות השנייה | 67.25 אלפיות השנייה |