ขอแนะนํา Google AI Edge Portal: เปรียบเทียบประสิทธิภาพ AI บนอุปกรณ์ขอบในวงกว้าง ลงชื่อสมัครใช้เพื่อขอสิทธิ์เข้าถึงในช่วงเวอร์ชันตัวอย่างก่อนเปิดตัว

API ของ CompiledModel สำหรับการทดสอบประสิทธิภาพ

เครื่องมือเปรียบเทียบ LiteRT จะวัดและคำนวณสถิติสำหรับเมตริกประสิทธิภาพที่สำคัญต่อไปนี้

เวลาเริ่มต้น
เวลาในการอนุมานของสถานะวอร์มอัป
เวลาอนุมานของสถานะคงที่
การใช้งานหน่วยความจำในระหว่างเวลาเริ่มต้น
การใช้หน่วยความจำโดยรวม

CompiledModelเครื่องมือเปรียบเทียบมีให้ใช้งานเป็นไบนารี C++ benchmark_model คุณเรียกใช้เครื่องมือนี้ได้จากบรรทัดคำสั่ง Shell ใน Android, Linux, macOS, Windows และอุปกรณ์แบบฝังที่เปิดใช้การเร่งความเร็ว GPU

ดาวน์โหลดไบนารีการเปรียบเทียบที่สร้างไว้ล่วงหน้า

ดาวน์โหลดไบนารีบรรทัดคำสั่งที่สร้างไว้ล่วงหน้าในเวอร์ชันทดลองโดยทำตามลิงก์ต่อไปนี้

สร้างไบนารีการเปรียบเทียบจากแหล่งที่มา

คุณสร้างไบนารีการเปรียบเทียบได้จากแหล่งที่มา

bazel build -c opt //litert/tools:benchmark_model

หากต้องการสร้างด้วย Toolchain ของ Android NDK คุณต้องตั้งค่าสภาพแวดล้อมการสร้างก่อนโดยทำตามคำแนะนำนี้ หรือใช้ Docker Image ตามที่อธิบายไว้ในคำแนะนำนี้

bazel build -c opt --config=android_arm64 \
  //litert/tools:benchmark_model

หมายเหตุ: การพุชและเรียกใช้ไบนารีโดยตรงบนอุปกรณ์ Android เพื่อการเปรียบเทียบเป็นแนวทางที่ถูกต้อง แต่ก็อาจส่งผลให้เกิดความแตกต่างเล็กน้อย (แต่สังเกตได้) ในด้านประสิทธิภาพเมื่อเทียบกับการเรียกใช้ภายในแอป Android จริง โดยเฉพาะอย่างยิ่ง ตัวกำหนดตารางเวลาของ Android จะปรับแต่งลักษณะการทำงานตามลำดับความสำคัญของเธรดและกระบวนการ ซึ่งจะแตกต่างกันระหว่างกิจกรรมหรือแอปพลิเคชันที่ทำงานอยู่เบื้องหน้ากับ ไบนารีพื้นหลังปกติที่เรียกใช้โดยใช้ adb shell ... ลักษณะการทำงานที่ปรับแต่งนี้ จะเห็นได้ชัดเจนที่สุดเมื่อเปิดใช้การดำเนินการ CPU แบบหลายเธรดด้วย LiteRT ดังนั้น เราจึงแนะนำให้ใช้แอปการเปรียบเทียบ Android เพื่อวัดประสิทธิภาพ

เรียกใช้การเปรียบเทียบ

หากต้องการเรียกใช้การเปรียบเทียบ ให้เรียกใช้ไบนารีจาก Shell

path/to/downloaded_or_built/benchmark_model \
  --graph=your_model.tflite \
  --num_threads=4

ดูตัวเลือกพารามิเตอร์เพิ่มเติมได้ในซอร์สโค้ดของ benchmark_model

เปรียบเทียบการเร่งความเร็ว GPU

ไบนารีที่สร้างไว้ล่วงหน้าเหล่านี้มีตัวเร่ง GPU ของ LiteRT รองรับ

Android: OpenCL
Linux: OpenCL และ WebGPU (รองรับโดย Vulkan)
macOS: Metal
Windows: WebGPU (รองรับโดย Direct3D)

หากต้องการใช้ตัวเร่ง GPU ให้ส่งแฟล็ก --use_gpu=true

การดำเนินการเกี่ยวกับโมเดลโปรไฟล์

ไบนารีของโมเดลการเปรียบเทียบยังช่วยให้คุณสร้างโปรไฟล์การดำเนินการของโมเดลและดู เวลาในการดำเนินการของโอเปอเรเตอร์แต่ละรายได้ด้วย โดยส่งแฟล็ก --use_profiler=true ไปยัง benchmark_model ในระหว่างการเรียกใช้