การเร่งฮาร์ดแวร์ด้วย LiteRT

อุปกรณ์เคลื่อนที่และอุปกรณ์ Edge สมัยใหม่มีหน่วยประมวลผลกราฟิก (GPU) และหน่วยประมวลผลประสาท (NPU) ที่มีความเชี่ยวชาญ ซึ่งสามารถเร่งโมเดล AI ได้สูงสุด 25 เท่าเมื่อเทียบกับ CPU พร้อมทั้งลดการใช้พลังงานได้สูงสุด 5 เท่า

LiteRT ช่วยให้เข้าถึงซิลิคอนเฉพาะทางเหล่านี้ได้ง่ายขึ้นผ่านสแต็กการเร่งฮาร์ดแวร์แบบรวม LiteRT มี CompiledModel API ที่ได้รับการเพิ่มประสิทธิภาพซึ่ง ลดความซับซ้อนของการเพิ่มประสิทธิภาพโมเดล การจัดการหน่วยความจำ และการส่งฮาร์ดแวร์ แทนที่จะจัดการ SDK ที่กระจัดกระจายและเฉพาะเจาะจงของผู้ให้บริการหรือ API ฮาร์ดแวร์ที่ซับซ้อน

ประเภทของตัวเร่ง

LiteRT มีอินเทอร์เฟซแบบรวมเพื่อเรียกใช้โมเดลในฮาร์ดแวร์แบ็กเอนด์ที่หลากหลาย การใช้ประโยชน์จาก CompiledModel API ช่วยให้คุณสลับไปมาระหว่างตัวเร่งความเร็วเหล่านี้ได้อย่างราบรื่นโดยใช้การคอมไพล์ในอุปกรณ์หรือการคอมไพล์ล่วงหน้า (AOT) พร้อมด้วยการเปลี่ยนไปใช้ CPU โดยอัตโนมัติสำหรับการดำเนินการที่ไม่รองรับ

  • CPU: เส้นทางการดำเนินการเริ่มต้นที่ใช้ XNNPACK และพร้อมใช้งานเสมอ เหมาะสำหรับงานทั่วไปและเป็นตัวเลือกสำรองสำหรับโอเปอเรเตอร์ที่ไม่รองรับ
  • GPU: ขับเคลื่อนโดย ML Drift ซึ่งให้ประสิทธิภาพ SOTA ในแพลตฟอร์ม Edge โดยใช้ประโยชน์จาก OpenCL, WebGPU, Metal ฯลฯ ดูข้อมูลเพิ่มเติมได้ที่ การเร่งความเร็ว GPU ด้วย LiteRT
  • NPU: ประสิทธิภาพสูงสุดสำหรับภาระงาน AI LiteRT มีขั้นตอนการพัฒนาแบบรวมเพื่อเข้าถึงชิปเซ็ต NPU เฉพาะทาง ซึ่งรวมถึง Google Tensor, Qualcomm และ MediaTek โดยไม่ต้องผสานรวม SDK เฉพาะของผู้ให้บริการ ดูข้อมูลเพิ่มเติมได้ที่ การเร่งความเร็ว NPU ด้วย LiteRT

คุณสามารถใช้ตัวเร่งเหล่านี้ร่วมกันเพื่อให้ได้ประสิทธิภาพสูงสุดเมื่อ การดำเนินการที่ซับซ้อนบางอย่างไม่พร้อมใช้งานในฮาร์ดแวร์ที่กำหนด เมื่อตัวเร่ง แข่งขันกันในการดำเนินการ LiteRT จะใช้ลำดับความสำคัญต่อไปนี้: NPU, GPU, CPU