LiteRT CompiledModel API استاندارد مدرنی برای استنتاج یادگیری ماشین روی دستگاه ارائه میدهد و شتاب سختافزاری سادهای را ارائه میدهد که به طور قابل توجهی از Interpreter API بهتر عمل میکند. این رابط با ارائه تجربیات یکپارچه توسعهدهندگان و ویژگیهای پیشرفته طراحی شده برای حداکثر بهرهوری سختافزار، استقرار مدلهای .tflite را در طیف گستردهای از پلتفرمهای لبه ساده میکند.
چرا باید از CompiledModel API استفاده کنیم؟
در حالی که API Interpreter برای سازگاری با نسخههای قبلی همچنان در دسترس است، API CompiledModel جایی است که ویژگیهای جدید عملکرد و شتابدهنده در اولویت قرار دارند. این انتخاب به دلایل زیر توصیه میشود:
شتابدهی GPU در بهترین سطح : از ML Drift ، کتابخانه پیشرفته شتابدهی GPU، برای ارائه استنتاج GPU قابل اعتماد در دستگاههای تلفن همراه، وب، دسکتاپ و IoT استفاده میکند. به شتابدهی GPU با LiteRT مراجعه کنید.
دسترسی یکپارچه به NPU : یک تجربه توسعهدهنده واحد و سازگار برای دسترسی به NPUها از ارائهدهندگان مختلف مانند Google Tensor، Qualcomm، MediaTek فراهم میکند و کامپایلرهای خاص فروشنده و پیچیدگیهای زمان اجرا را حذف میکند. به شتابدهی NPU با LiteRT مراجعه کنید.
انتخاب خودکار سختافزار : بهطور خودکار، بر اساس سختافزار موجود و منطق اولویت داخلی، بهترین backend را از بین CPU، GPU و NPU انتخاب میکند و نیاز به پیکربندی دستی delegate را از بین میبرد.
اجرای ناهمزمان : از مکانیزمهای سطح سیستم عامل (مانند نردههای همگامسازی) استفاده میکند تا به شتابدهندههای سختافزاری اجازه دهد پس از اتمام وظایف قبلی، بدون درگیر کردن CPU، مستقیماً فعال شوند. این میتواند تأخیر را تا 2 برابر کاهش دهد و یک تجربه هوش مصنوعی روانتر و تعاملیتر را تضمین کند.
مدیریت کارآمد بافر ورودی/خروجی : از API
TensorBufferبرای مدیریت جریان داده با کارایی بالا بین شتابدهندهها استفاده میکند. این شامل تعامل بافر بدون کپی درAHardwareBuffer، OpenCL و OpenGL میشود و کپیهای پرهزینه داده را بین مراحل پیشپردازش، استنتاج و پسپردازش حذف میکند.
شروع کار با CompiledModel API
برای مدلهای کلاسیک یادگیری ماشین ، به برنامههای نمایشی زیر مراجعه کنید.
- قطعهبندی تصویر در کاتلین : استنتاج CPU/GPU/NPU
- قطعهبندی تصویر در برنامه ++C : استنتاج CPU/GPU/NPU با اجرای ناهمگام
برای مدلهای GenAI ، به برنامههای نمایشی زیر مراجعه کنید:
- شباهت معنایی EmbeddingGemma در برنامه ++C : استنتاج CPU/GPU/NPU.
پلتفرمهای پشتیبانیشده
LiteRT CompiledModel API از استنتاجهای با کارایی بالا در دستگاههای اندروید، iOS، وب، اینترنت اشیا و دسکتاپ پشتیبانی میکند. به راهنمای مخصوص هر پلتفرم مراجعه کنید.