ขอแนะนำ LiteRT: รันไทม์ประสิทธิภาพสูงของ Google สำหรับ AI ในอุปกรณ์ หรือที่รู้จักกันในชื่อ TensorFlow Lite

หน้านี้ได้รับการแปลโดย Cloud Translation API

คู่มือการแบ่งกลุ่มรูปภาพสำหรับ Python

งานเครื่องมือแบ่งกลุ่มรูปภาพ MediaPipe ให้คุณแบ่งรูปภาพออกเป็นภูมิภาคต่างๆ ตามเนื้อหาที่กำหนดไว้ล่วงหน้า หมวดหมู่สำหรับการใช้เอฟเฟกต์ภาพ เช่น การเบลอพื้นหลัง เหล่านี้ แสดงวิธีใช้การแบ่งกลุ่มภาพกับภาษา Python สำหรับ เพื่อทราบข้อมูลเพิ่มเติมเกี่ยวกับความสามารถ โมเดล และตัวเลือกการกำหนดค่า งานนี้ โปรดดูภาพรวม

ตัวอย่างโค้ด

โค้ดตัวอย่างสำหรับตัวจัดกลุ่มรูปภาพช่วยให้สามารถติดตั้งใช้งานได้อย่างสมบูรณ์ ใน Python เพื่อใช้เป็นข้อมูลอ้างอิง โค้ดนี้จะช่วยคุณทดสอบงานนี้และรับ เริ่มสร้างแอปพลิเคชัน การแบ่งกลุ่มรูปภาพของคุณเอง คุณสามารถดู เรียกใช้ และ แก้ไขตัวแบ่งกลุ่มรูปภาพ โค้ดตัวอย่าง โดยใช้แค่เว็บเบราว์เซอร์

ตั้งค่า

ส่วนนี้จะอธิบายขั้นตอนสำคัญในการตั้งค่าสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ และ โปรเจ็กต์โค้ดเพื่อใช้เครื่องมือแบ่งกลุ่มรูปภาพโดยเฉพาะ สำหรับข้อมูลทั่วไปเกี่ยวกับ การตั้งค่าสภาพแวดล้อมในการพัฒนาซอฟต์แวร์ของคุณสำหรับการใช้งาน MediaPipe ซึ่งรวมถึง โปรดดูข้อกำหนดเวอร์ชันของแพลตฟอร์ม คู่มือการตั้งค่าสำหรับ Python คุณตรวจสอบซอร์สโค้ดสำหรับตัวอย่างนี้ได้ใน GitHub

แพ็กเกจ

งานเครื่องมือแบ่งกลุ่มรูปภาพ MediaPipe ต้องการแพ็กเกจ mediapipe คุณสามารถติดตั้ง ทรัพยากร Dependency ที่จำเป็นโดยใช้คำสั่งต่อไปนี้

$ python -m pip install mediapipe

การนำเข้า

นำเข้าคลาสต่อไปนี้เพื่อเข้าถึงฟังก์ชันงานของเครื่องมือแบ่งกลุ่มรูปภาพ

import mediapipe as mp
from mediapipe.tasks import python
from mediapipe.tasks.python import vision

รุ่น

งานเครื่องมือแบ่งกลุ่มรูปภาพ MediaPipe ต้องใช้โมเดลที่ผ่านการฝึกและใช้งานได้กับ งาน สำหรับข้อมูลเพิ่มเติมเกี่ยวกับโมเดลที่ผ่านการฝึกที่ใช้ได้สำหรับเครื่องมือแบ่งกลุ่มรูปภาพ โปรดดู ส่วนโมเดลภาพรวมงาน

เลือกและดาวน์โหลดโมเดล จากนั้นเก็บโมเดลไว้ในไดเรกทอรีโปรเจ็กต์ของคุณ:

model_path = '/absolute/path/to/model.tflite'

ระบุเส้นทางของโมเดลภายในพารามิเตอร์ชื่อโมเดลดังที่แสดงด้านล่าง

base_options = BaseOptions(model_asset_path=model_path)

สร้างงาน

งานเครื่องมือแบ่งกลุ่มรูปภาพ MediaPipe ใช้ฟังก์ชัน create_from_options เพื่อ ตั้งค่างาน ฟังก์ชัน create_from_options ยอมรับค่า เพื่อจัดการกับตัวเลือกการกำหนดค่า หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับการกำหนดค่างาน ดูตัวเลือกการกำหนดค่า

ตัวอย่างเหล่านี้ยังแสดงรูปแบบของการสร้างงานสำหรับรูปภาพต่างๆ ด้วย ไฟล์วิดีโอและสตรีมวิดีโอสด

รูปภาพ

BaseOptions = mp.tasks.BaseOptions
ImageSegmenter = mp.tasks.vision.ImageSegmenter
ImageSegmenterOptions = mp.tasks.vision.ImageSegmenterOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a image segmenter instance with the image mode:
options = ImageSegmenterOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.IMAGE,
    output_category_mask=True)
with ImageSegmenter.create_from_options(options) as segmenter:

วิดีโอ

BaseOptions = mp.tasks.BaseOptions
ImageSegmenter = mp.tasks.vision.ImageSegmenter
ImageSegmenterOptions = mp.tasks.vision.ImageSegmenterOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a image segmenter instance with the video mode:
options = ImageSegmenterOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.VIDEO,
    output_category_mask=True)
with ImageSegmenter.create_from_options(options) as segmenter:

สตรีมแบบสด

BaseOptions = mp.tasks.BaseOptions
ImageSegmenter = mp.tasks.vision.ImageSegmenter
ImageSegmenterOptions = mp.tasks.vision.ImageSegmenterOptions
VisionRunningMode = mp.tasks.vision.RunningMode

# Create a image segmenter instance with the live stream mode:
def print_result(result: List[Image], output_image: Image, timestamp_ms: int):
    print('segmented masks size: {}'.format(len(result)))

options = ImageSegmenterOptions(
    base_options=BaseOptions(model_asset_path='/path/to/model.task'),
    running_mode=VisionRunningMode.VIDEO,
    output_category_mask=True)
with ImageSegmenter.create_from_options(options) as segmenter:

ตัวเลือกการกำหนดค่า

งานนี้มีตัวเลือกการกำหนดค่าต่อไปนี้สำหรับแอปพลิเคชัน Python

ชื่อตัวเลือก	คำอธิบาย	ช่วงค่า	ค่าเริ่มต้น
`running_mode`	ตั้งค่าโหมดการทำงานสำหรับงาน มี 3 แบบ โหมด: รูปภาพ: โหมดสำหรับอินพุตรูปภาพเดียว วิดีโอ: โหมดสำหรับเฟรมที่ถอดรหัสของวิดีโอ LIVE_STREAM: โหมดสำหรับสตรีมแบบสดของอินพุต เช่น ข้อมูลจากกล้อง ในโหมดนี้ resultsListener ต้องเป็น ถูกเรียกให้ตั้งค่า Listener เพื่อรับผลลัพธ์ แบบไม่พร้อมกัน	{`IMAGE, VIDEO, LIVE_STREAM`}	`IMAGE`
`output_category_mask`	หากตั้งค่าเป็น `True` เอาต์พุตจะมีมาสก์การแบ่งกลุ่ม เป็นรูปภาพ uint8 โดยที่ค่าพิกเซลแต่ละค่าจะระบุหมวดหมู่ที่ชนะ	{`True, False`}	`False`
`output_confidence_masks`	หากตั้งค่าเป็น `True` เอาต์พุตจะมีมาสก์การแบ่งกลุ่ม เป็นภาพค่าจำนวนลอยตัว โดยที่ค่าจำนวนลอยตัวแต่ละค่าแสดงความเชื่อมั่น ตารางคะแนนของหมวดหมู่	{`True, False`}	`True`
`display_names_locale`	ตั้งค่าภาษาของป้ายกำกับที่จะใช้กับชื่อที่แสดงซึ่งระบุไว้ใน ข้อมูลเมตาของโมเดลงาน (หากมี) ค่าเริ่มต้นคือ `en` สำหรับ ภาษาอังกฤษ คุณเพิ่มป้ายกำกับที่แปลแล้วลงในข้อมูลเมตาของโมเดลที่กำหนดเองได้ โดยใช้ TensorFlow Lite Metadata Writer API	รหัสภาษา	en
`result_callback`	ตั้งค่า Listener ผลลัพธ์เพื่อรับผลลัพธ์การแบ่งกลุ่ม แบบไม่พร้อมกันเมื่อตัวแบ่งกลุ่มรูปภาพอยู่ในโหมด `LIVE_STREAM` ใช้ได้เมื่อตั้งค่าโหมดวิ่งเป็น `LIVE_STREAM` เท่านั้น	ไม่มี	ไม่มี

เตรียมข้อมูล

ให้เตรียมอินพุตเป็นไฟล์รูปภาพหรืออาร์เรย์แบบตัวเลข จากนั้นแปลงเป็นออบเจ็กต์ mediapipe.Image หากข้อมูลที่คุณป้อนเป็นไฟล์วิดีโอ หรือสตรีมแบบสดจากเว็บแคม คุณจะใช้ไลบรารีภายนอกได้ เช่น OpenCV เพื่อโหลดเฟรมอินพุตเป็นตัวเลข อาร์เรย์

รูปภาพ

# Load the input image from an image file.
mp_image = mp.Image.create_from_file('/path/to/image')

# Load the input image from a numpy array.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_image)

วิดีโอ

# Use OpenCV’s VideoCapture to load the input video.
# Load the frame rate of the video using OpenCV’s CV_CAP_PROP_FPS
# You need the frame rate to calculate the timestamp for each frame.
# Loop through each frame in the video using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

สตรีมแบบสด

# Use OpenCV’s VideoCapture to start capturing from the webcam.
# Create a loop to read the latest frame from the camera using VideoCapture#read()

# Convert the frame received from OpenCV to a MediaPipe’s Image object.
mp_image = mp.Image(image_format=mp.ImageFormat.SRGB, data=numpy_frame_from_opencv)

สำหรับตัวอย่างโค้ดที่แสดงการจัดเตรียมข้อมูลสำหรับตัวแบ่งกลุ่มรูปภาพ โปรดดู ตัวอย่างโค้ด

เรียกใช้งาน

เครื่องมือแบ่งกลุ่มรูปภาพใช้ segment, segment_for_video และ segment_async เพื่อทริกเกอร์การอนุมาน ในการแบ่งกลุ่มรูปภาพ การดำเนินการนี้เกี่ยวข้องกับ ประมวลผลข้อมูลอินพุตล่วงหน้า การเรียกใช้โมเดลการแบ่งกลุ่มลูกค้าและหลังการประมวลผล โมเดลดิบจะแสดงผลเป็นมาสก์ที่แบ่งกลุ่ม

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีประมวลผลการประมวลผลด้วยโมเดลงาน

รูปภาพ

# Perform image segmentation on the provided single image.
# The image segmenter must be created with the image mode.
segmented_masks = segmenter.segment(mp_image)

วิดีโอ

# Perform image segmentation on the provided single image.
# The image segmenter must be created with the video mode.
segmented_masks = segmenter.segment_for_video(mp_image, frame_timestamp_ms)

สตรีมแบบสด

# Send live image data to perform image segmentation.
# The results are accessible via the `result_callback` provided in
# the `ImageSegmenterOptions` object.
# The image segmenter must be created with the live stream mode.
segmenter.segment_async(mp_image, frame_timestamp_ms)

โปรดทราบดังต่อไปนี้

เมื่อทำงานในโหมดวิดีโอหรือโหมดสตรีมแบบสด คุณต้อง ระบุการประทับเวลาของเฟรมอินพุตให้แก่งานตัวแบ่งกลุ่มรูปภาพ
เมื่อเรียกใช้ในโมเดลรูปภาพหรือวิดีโอ งานเครื่องมือแบ่งกลุ่มรูปภาพจะ บล็อกชุดข้อความปัจจุบันจนกว่าจะประมวลผลรูปภาพอินพุตเสร็จสิ้น หรือ เฟรม

สำหรับตัวอย่างที่สมบูรณ์ยิ่งขึ้นของการเรียกใช้การอนุมานเครื่องมือแบ่งกลุ่มรูปภาพ โปรดดู ตัวอย่างโค้ด

จัดการและแสดงผลลัพธ์

ตัวแบ่งกลุ่มรูปภาพจะแสดงรายการข้อมูล Image ถ้า output_type คือ CATEGORY_MASK เอาต์พุตเป็นรายการ มีมาสก์ที่แบ่งกลุ่มเดี่ยวเป็นรูปภาพ uint8 พิกเซลจะระบุ ดัชนีหมวดหมู่ที่รู้จักของรูปภาพอินพุต หาก output_type คือ CONFIDENCE_MASK เอาต์พุตจะเป็นเวกเตอร์ที่มีขนาดของหมายเลขหมวดหมู่ ชิ้น มาสก์ที่แบ่งกลุ่มคือรูปภาพแบบลอยภายในช่วง [0,1] ซึ่งแสดงถึง คะแนนความเชื่อมั่นของพิกเซลที่อยู่ในหมวดหมู่ดังกล่าว

ส่วนต่อไปนี้จะแสดงตัวอย่างข้อมูลเอาต์พุตจากงานนี้

ความเชื่อมั่นของหมวดหมู่

รูปภาพต่อไปนี้แสดงภาพเอาต์พุตงานสำหรับหมวดหมู่ มาส์กความมั่นใจ เอาต์พุตมาสก์ความเชื่อมั่นมีค่าแบบลอยระหว่าง [0, 1]

ผลลัพธ์มาสก์ความเชื่อมั่นหมวดหมู่และรูปภาพต้นฉบับ แหล่งที่มาของรูปภาพจาก VOC ของ Pascal ปี 2012 ชุดข้อมูล

ค่าของหมวดหมู่

รูปภาพต่อไปนี้แสดงภาพเอาต์พุตงานสำหรับหมวดหมู่ มาสก์ค่า ช่วงมาสก์หมวดหมู่คือ [0, 255] และค่าพิกเซลแต่ละค่า แสดงดัชนีหมวดหมู่ที่ชนะของเอาต์พุตโมเดล หมวดหมู่ที่ชนะ ดัชนีได้คะแนนสูงสุดในบรรดาหมวดหมู่ ที่โมเดลสามารถรับรู้ได้

ผลลัพธ์มาสก์รูปภาพและหมวดหมู่ต้นฉบับ แหล่งที่มาของรูปภาพจาก VOC ของ Pascal ปี 2012 ชุดข้อมูล