אנחנו גאים להציג את Google AI Edge Portal: כלי למדידת ביצועים של AI לקצה (Edge AI) בקנה מידה נרחב. להירשם כדי לבקש גישה במהלך התצוגה המקדימה הפרטית.

מדריך אינטראקטיבי לפילוח תמונות

תמונות זו לצד זו שבהן מוצגת תמונה של כיסא בתמונה אחת, ואז אותה תמונה עם הכיסא מודגש כדי לציין שהמודל זיהה את הכיסא

המשימה 'פילוח תמונות אינטראקטיבי' ב-MediaPipe מאפשרת לחלק תמונה לשני אזורים: אובייקט שנבחר וכל השאר. המשימה מקבלת מיקום בתמונה, מעריכה את הגבולות של אובייקט במיקום הזה ומחזירה את נתוני התמונה שמגדירים את האזור של האובייקט. אפשר להשתמש במשימה הזו כדי לבחור אובייקט בתמונה באופן אינטראקטיבי, ולהשתמש בפלט כדי להחיל אפקטים על התמונה, כמו שכבות-על צבעוניות שמדגישות את האובייקט או מטשטשות את הרקע שמסביבו. המשימה הזו פועלת על נתוני תמונות באמצעות מודל למידת מכונה (ML), וניתן להשתמש בה בתמונות בודדות, בקובצי וידאו או בשידור וידאו רציף.

רוצים לנסות?

תחילת העבודה

כדי להתחיל להשתמש במשימה הזו, פועלים לפי אחד מהמדריכים הבאים להטמעה בפלטפורמת היעד. המדריכים הספציפיים לפלטפורמות האלה כוללים הנחיות להטמעה בסיסית של המשימה הזו, כולל מודל מומלץ ודוגמת קוד עם אפשרויות ההגדרה המומלצות:

Android – דוגמה לקוד – מדריך
Python – קוד לדוגמה – מדריך
אינטרנט – דוגמה לקוד – מדריך

פרטי המשימה

בקטע הזה מוסבר על היכולות, הקלט, הפלט והאפשרויות להגדרה של המשימה הזו.

תכונות

עיבוד תמונות קלט – העיבוד כולל סיבוב תמונות, שינוי גודל, נורמליזציה והמרה של מרחב צבעים.

קלט של משימות פלט של משימות

קלט של משימות	פלט של משימות
קואורדינטות של נקודת עניין לאובייקט בתמונה קובץ התמונה לעיבוד	הכלי לפילוח תמונות אינטראקטיבי מניב נתוני תמונות מפלחים, שיכולים לכלול אחד או שניהם מהפריטים הבאים, בהתאם לאפשרויות ההגדרה שהגדרתם: `CATEGORY_MASK`: רשימה שמכילה מסכה מחולקת כתמונה בפורמט uint8. כל ערך פיקסל מציין אם הוא חלק מהאובייקט שנמצא באזור העניין. `CONFIDENCE_MASK`: רשימה של ערוצים שמכילה מסכה מחולקת עם ערכי פיקסלים בפורמט float32. כל ערך פיקסל מציין את רמת האמון שהוא חלק מהאובייקט שנמצא באזור העניין.

קואורדינטות של נקודת עניין לאובייקט בתמונה
קובץ התמונה לעיבוד

הכלי לפילוח תמונות אינטראקטיבי מניב נתוני תמונות מפלחים, שיכולים לכלול אחד או שניהם מהפריטים הבאים, בהתאם לאפשרויות ההגדרה שהגדרתם:

CATEGORY_MASK: רשימה שמכילה מסכה מחולקת כתמונה בפורמט uint8. כל ערך פיקסל מציין אם הוא חלק מהאובייקט שנמצא באזור העניין.

CONFIDENCE_MASK: רשימה של ערוצים שמכילה מסכה מחולקת עם ערכי פיקסלים בפורמט float32. כל ערך פיקסל מציין את רמת האמון שהוא חלק מהאובייקט שנמצא באזור העניין.

אפשרויות הגדרה

למשימה הזו יש את אפשרויות ההגדרה הבאות:

שם האפשרות	תיאור	טווח ערכים	ערך ברירת מחדל
`output_category_mask`	אם הערך מוגדר כ-`True`, הפלט כולל מסכת פילוח כתמונה מסוג uint8, שבה כל ערך פיקסל מציין אם הפיקסל הוא חלק מהאובייקט שנמצא באזור העניין.	{`True, False`}	`False`
`output_confidence_masks`	אם הערך מוגדר כ-`True`, הפלט כולל מסכת פילוח בתור תמונה של ערך צף, כאשר כל ערך צף מייצג את רמת האמון שהפיקסל הוא חלק מהאובייקט שנמצא באזור העניין.	{`True, False`}	`True`
`display_names_locale`	הגדרת השפה של התוויות לשימוש בשמות התצוגה שסופקו במטא-נתונים של מודל המשימה, אם הם זמינים. ברירת המחדל היא `en` לאנגלית. אפשר להוסיף תוויות מותאמות לשוק המקומי למטא-נתונים של מודל מותאם אישית באמצעות TensorFlow Lite Metadata Writer API	קוד לוקאל	en

דגמים

אפשר להשתמש בכלי לחלוקת תמונות אינטראקטיביות עם יותר ממודל אחד של למידת מכונה. כשמתחילים לפתח את המשימה הזו, מומלץ להתחיל עם המודל המומלץ שמוגדר כברירת מחדל בפלטפורמת היעד. במודלים האחרים הזמינים, בדרך כלל יש פשרות בין הביצועים, הדיוק, הרזולוציה ודרישות המשאבים, ובמקרים מסוימים הם כוללים תכונות נוספות.

דגם MagicTouch (מומלץ)

המודל הזה מזהה פלחים על סמך קואורדינטות של תמונה לאזור עניין. המודל מבוסס על רשת נוירונים קונבולוציונית (CNN), בדומה לארכיטקטורה של MobileNetV3, עם מפענח מותאם אישית.

שם דגם	צורת הקלט	סוג הקידוד	כרטיס מודל	גרסאות
MagicTouch	512 x 512 x 4	None‏ (float32)	info	חדש

נקודות השוואה של משימות

בהמשך מפורטות נקודות השוואה של המשימות לצינור עיבוד הנתונים כולו, על סמך המודלים המאומןים מראש שצוינו למעלה. תוצאת זמן האחזור היא זמן האחזור הממוצע ב-Pixel 6 באמצעות מעבד או יחידת עיבוד גרפי (GPU).

שם דגם	זמן האחזור של המעבד (CPU)	זמן אחזור של GPU
MagicTouch	130.11 אלפיות השנייה	67.25 אלפיות השנייה