ขอแนะนํา Google AI Edge Portal: เปรียบเทียบประสิทธิภาพ AI บนอุปกรณ์ขอบในวงกว้าง ลงชื่อสมัครใช้เพื่อขอสิทธิ์เข้าถึงในช่วงเวอร์ชันตัวอย่างก่อนเปิดตัว

การอนุมานในอุปกรณ์ด้วย LiteRT

LiteRT CompiledModel API แสดงถึงมาตรฐานที่ทันสมัยสำหรับการอนุมาน ML ในอุปกรณ์ โดยมีการเร่งด้วยฮาร์ดแวร์ที่มีประสิทธิภาพซึ่งมีประสิทธิภาพสูงกว่า Interpreter API อย่างมาก อินเทอร์เฟซนี้ช่วยลดความซับซ้อนในการ ติดตั้งใช้งานโมเดล .tflite ในแพลตฟอร์ม Edge ที่หลากหลายด้วยการ มอบประสบการณ์การใช้งานที่สอดคล้องกันสำหรับนักพัฒนาแอปและฟีเจอร์ขั้นสูงที่ออกแบบมาเพื่อ ประสิทธิภาพสูงสุดของฮาร์ดแวร์

เหตุใดจึงควรเลือกใช้ `CompiledModel` API

แม้ว่า Interpreter API จะยังคงพร้อมใช้งานเพื่อความเข้ากันได้แบบย้อนหลัง แต่เราจะให้ความสำคัญกับประสิทธิภาพและฟีเจอร์ตัวเร่งใหม่ๆ ใน CompiledModel API เราขอแนะนำให้ใช้ตัวเลือกนี้ด้วยเหตุผลต่อไปนี้

การเร่งความเร็ว GPU ที่ดีที่สุด: ใช้ประโยชน์จาก ML Drift ซึ่งเป็นไลบรารีการเร่งความเร็ว GPU ที่ทันสมัยที่สุด เพื่อให้การอนุมาน GPU ที่เชื่อถือได้ในอุปกรณ์เคลื่อนที่ เว็บ เดสก์ท็อป และ IoT ดูการเร่ง GPU ด้วย LiteRT
การเข้าถึง NPU แบบรวม: มอบประสบการณ์การใช้งานที่สอดคล้องกันเพียงอย่างเดียวแก่นักพัฒนาแอปเพื่อ เข้าถึง NPU จากผู้ให้บริการต่างๆ เช่น Google Tensor, Qualcomm, MediaTek โดยไม่ต้องกังวลเกี่ยวกับคอมไพเลอร์เฉพาะของผู้ให้บริการและความซับซ้อนของรันไทม์ ดูการเร่งความเร็ว NPU ด้วย LiteRT
การเลือกฮาร์ดแวร์อัตโนมัติ: เลือกแบ็กเอนด์ที่เหมาะสมที่สุดโดยอัตโนมัติ ในบรรดา CPU, GPU และ NPU โดยอิงตามฮาร์ดแวร์ที่มีอยู่และตรรกะลำดับความสำคัญภายใน จึงไม่จำเป็นต้องกำหนดค่า Delegate ด้วยตนเอง
การดำเนินการแบบอะซิงโครนัส: ใช้กลไกระดับระบบปฏิบัติการ (เช่น Sync Fences) เพื่อ อนุญาตให้ตัวเร่งฮาร์ดแวร์ทริกเกอร์โดยตรงเมื่อทำงานก่อนหน้า เสร็จสมบูรณ์โดยไม่ต้องใช้ CPU ซึ่งจะช่วยลดเวลาในการตอบสนองได้สูงสุด 2 เท่า และช่วยให้ประสบการณ์การใช้งาน AI ราบรื่นและมีการโต้ตอบมากขึ้น
การจัดการบัฟเฟอร์ I/O ที่มีประสิทธิภาพ: ใช้ประโยชน์จาก TensorBuffer API เพื่อ จัดการการไหลของข้อมูลประสิทธิภาพสูงระหว่างตัวเร่ง ซึ่งรวมถึงการทำงานร่วมกันของบัฟเฟอร์แบบไม่คัดลอกใน AHardwareBuffer, OpenCL และ OpenGL ซึ่งช่วยลดการคัดลอกข้อมูลที่มีค่าใช้จ่ายสูงระหว่างขั้นตอนการประมวลผลเบื้องต้น การอนุมาน และ การประมวลผลภายหลัง

เริ่มต้นใช้งาน `CompiledModel` API

สำหรับโมเดล ML แบบคลาสสิก โปรดดูแอปเดโมต่อไปนี้
- แอป Kotlin สำหรับการแบ่งกลุ่มรูปภาพ: การอนุมาน CPU/GPU/NPU
- แอป C++ สำหรับการแบ่งกลุ่มรูปภาพ: การอนุมาน CPU/GPU/NPU ด้วยการดำเนินการแบบอะซิงโครนัส
สำหรับโมเดล GenAI โปรดดูแอปสาธิตต่อไปนี้
- แอป C++ ที่ใช้การฝัง Gemma เพื่อวัดความคล้ายกันเชิงความหมาย การอนุมานบน CPU/GPU/NPU

แพลตฟอร์มที่รองรับ

LiteRT CompiledModel API รองรับการอนุมานที่มีประสิทธิภาพสูงในอุปกรณ์ Android, iOS, เว็บ, IoT และเดสก์ท็อป ดูคำแนะนำเฉพาะแพลตฟอร์ม

การอนุมานในอุปกรณ์ด้วย LiteRT

เหตุใดจึงควรเลือกใช้ CompiledModel API

เริ่มต้นใช้งาน CompiledModel API

แพลตฟอร์มที่รองรับ

เหตุใดจึงควรเลือกใช้ `CompiledModel` API

เริ่มต้นใช้งาน `CompiledModel` API