استنتاج روی دستگاه با LiteRT

LiteRT CompiledModel API استاندارد مدرنی برای استنتاج یادگیری ماشین روی دستگاه ارائه می‌دهد و شتاب سخت‌افزاری ساده‌ای را ارائه می‌دهد که به طور قابل توجهی از Interpreter API بهتر عمل می‌کند. این رابط با ارائه تجربیات یکپارچه توسعه‌دهندگان و ویژگی‌های پیشرفته طراحی شده برای حداکثر بهره‌وری سخت‌افزار، استقرار مدل‌های .tflite را در طیف گسترده‌ای از پلتفرم‌های لبه ساده می‌کند.

چرا باید از `CompiledModel` API استفاده کنیم؟

در حالی که API Interpreter برای سازگاری با نسخه‌های قبلی همچنان در دسترس است، API CompiledModel جایی است که ویژگی‌های جدید عملکرد و شتاب‌دهنده در اولویت قرار دارند. این انتخاب به دلایل زیر توصیه می‌شود:

شتاب‌دهی GPU در بهترین سطح : از ML Drift ، کتابخانه پیشرفته شتاب‌دهی GPU، برای ارائه استنتاج GPU قابل اعتماد در دستگاه‌های تلفن همراه، وب، دسکتاپ و IoT استفاده می‌کند. به شتاب‌دهی GPU با LiteRT مراجعه کنید.
دسترسی یکپارچه به NPU : یک تجربه توسعه‌دهنده واحد و سازگار برای دسترسی به NPUها از ارائه‌دهندگان مختلف مانند Google Tensor، Qualcomm، MediaTek فراهم می‌کند و کامپایلرهای خاص فروشنده و پیچیدگی‌های زمان اجرا را حذف می‌کند. به شتاب‌دهی NPU با LiteRT مراجعه کنید.
انتخاب خودکار سخت‌افزار : به‌طور خودکار، بر اساس سخت‌افزار موجود و منطق اولویت داخلی، بهترین backend را از بین CPU، GPU و NPU انتخاب می‌کند و نیاز به پیکربندی دستی delegate را از بین می‌برد.
اجرای ناهمزمان : از مکانیزم‌های سطح سیستم عامل (مانند نرده‌های همگام‌سازی) استفاده می‌کند تا به شتاب‌دهنده‌های سخت‌افزاری اجازه دهد پس از اتمام وظایف قبلی، بدون درگیر کردن CPU، مستقیماً فعال شوند. این می‌تواند تأخیر را تا 2 برابر کاهش دهد و یک تجربه هوش مصنوعی روان‌تر و تعاملی‌تر را تضمین کند.
مدیریت کارآمد بافر ورودی/خروجی : از API TensorBuffer برای مدیریت جریان داده با کارایی بالا بین شتاب‌دهنده‌ها استفاده می‌کند. این شامل تعامل بافر بدون کپی در AHardwareBuffer ، OpenCL و OpenGL می‌شود و کپی‌های پرهزینه داده را بین مراحل پیش‌پردازش، استنتاج و پس‌پردازش حذف می‌کند.

شروع کار با `CompiledModel` API

برای مدل‌های کلاسیک یادگیری ماشین ، به برنامه‌های نمایشی زیر مراجعه کنید.
- قطعه‌بندی تصویر در کاتلین : استنتاج CPU/GPU/NPU
- قطعه‌بندی تصویر در برنامه ++C : استنتاج CPU/GPU/NPU با اجرای ناهمگام
برای مدل‌های GenAI ، به برنامه‌های نمایشی زیر مراجعه کنید:
- شباهت معنایی EmbeddingGemma در برنامه ++C : استنتاج CPU/GPU/NPU.

پلتفرم‌های پشتیبانی‌شده

LiteRT CompiledModel API از استنتاج‌های با کارایی بالا در دستگاه‌های اندروید، iOS، وب، اینترنت اشیا و دسکتاپ پشتیبانی می‌کند. به راهنمای مخصوص هر پلتفرم مراجعه کنید.

استنتاج روی دستگاه با LiteRT

چرا باید از CompiledModel API استفاده کنیم؟

شروع کار با CompiledModel API

پلتفرم‌های پشتیبانی‌شده

چرا باید از `CompiledModel` API استفاده کنیم؟

شروع کار با `CompiledModel` API