המשימה 'פלח תמונות אינטראקטיבי של MediaPipe' מאפשרת לחלק את התמונה לשני אזורים: אובייקט נבחר וכל השאר. המשימה מקבלת מיקום בתמונה, מבצעת הערכה של גבולות האובייקט במיקום הזה ומחזירה נתוני תמונה שמגדירים את אזור האובייקט. במשימה הזו אפשר לבחור אובייקט בתמונה באופן אינטראקטיבי ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כמו שכבות-על בצבע שמדגישות את האובייקט או טשטוש של הרקע שמסביבו. המשימה מבוססת על נתוני תמונה באמצעות מודל למידת מכונה (ML), ואפשר להשתמש בה בתמונות בודדות, בקובצי וידאו או בשידור וידאו רציף.
מתחילים
כדי להתחיל להשתמש במשימה הזו, כדאי לפעול לפי אחד ממדריכי ההטמעה האלה בהתאם לפלטפורמת היעד. במדריכים הבאים שספציפיים לפלטפורמה תמצאו הנחיות איך לבצע הטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמה לקוד עם אפשרויות הגדרה מומלצות:
- Android - דוגמה לקוד - מדריך
- Python – דוגמה לקוד – מדריך
- אינטרנט - דוגמה לקוד - מדריך
פרטי המשימה
בקטע הזה מתוארות היכולות, הקלט, הפלט ואפשרויות ההגדרה של המשימה הזו.
תכונות
- עיבוד תמונות קלט – העיבוד כולל סיבוב תמונות, שינוי גודל, נירמול והמרת מרחב צבעים.
קלט למשימות | פלט המשימות |
---|---|
|
נתוני תמונות מפולחים של פלחים אינטראקטיביים של תמונות יכולים לכלול אחת מהאפשרויות הבאות או את שתיהן, בהתאם לאפשרויות ההגדרה שהגדרת:
|
אפשרויות של הגדרות אישיות
במשימה הזאת קיימות אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
output_category_mask |
אם המדיניות מוגדרת כ-True , הפלט כולל מסכת פילוח כתמונה של Uint8, שבה כל ערך של פיקסל מציין אם הפיקסל הוא חלק מהאובייקט שנמצא באזור הרצוי. |
{True, False } |
False |
output_confidence_masks |
אם היא מוגדרת כ-True , הפלט כולל מסכת פילוח כתמונה של ערך צף, כאשר כל ערך צף מייצג את הביטחון שהפיקסל הוא חלק מהאובייקט שנמצא באזור העניין. |
{True, False } |
True |
display_names_locale |
ההגדרה הזו מגדירה את השפה של התוויות שישמשו לשמות תצוגה שנמסרים במטא-נתונים של מודל המשימה, אם יש כאלה. ברירת המחדל היא en עבור
אנגלית. אפשר להוסיף תוויות שהותאמו לשוק המקומי למטא-נתונים של מודל מותאם אישית באמצעות TensorFlow Lite Metadata Writer API
| קוד הלוקאל | en |
דגמים
אפשר להשתמש ב'פלח התמונות האינטראקטיבי' עם יותר ממודל אחד של למידת מכונה. כשמתחילים לפתח במשימה הזו, כדאי להתחיל עם מודל ברירת המחדל המומלץ לפלטפורמת היעד. בדרך כלל, המודלים הזמינים האחרים מתלווים בין דרישות של ביצועים, דיוק, רזולוציה ומשאבים, ובמקרים מסוימים, הם כוללים תכונות נוספות.
דגם MagicTouch (מומלץ)
המודל הזה מזהה קטעים בהינתן קואורדינטות של תמונה עבור אזור עניין. במודל נעשה שימוש ברשת עצבית מתקפלת, בדומה לארכיטקטורה של MobileNetV3, עם מפענח בהתאמה אישית.
שם הדגם | צורת הקלט | סוג הכמות | כרטיס דגם | גרסאות |
---|---|---|---|---|
MagicTouch | 512 x 512 x 4 | ללא (float32) | מידע | האחרון |
נקודות השוואה למשימות
אלה נקודות ההשוואה למשימות לגבי כל צינור עיבוד הנתונים, בהתבסס על המודלים שהוכשרו מראש למעלה. זמן האחזור הוא זמן האחזור הממוצע ב-Pixel 6 כשמשתמשים במעבד (CPU) או ב-GPU.
שם דגם | זמן אחזור של המעבד (CPU) | זמן אחזור של GPU |
---|---|---|
MagicTouch | 130.11 אלפיות השנייה | 67.25 אלפיות השנייה |