تتضمّن الأجهزة الجوّالة وأجهزة الحافة الحديثة وحدات معالجة رسومات (GPU) ووحدات معالجة عصبية (NPU) متخصّصة يمكنها تسريع نماذج الذكاء الاصطناعي بمقدار يصل إلى 25 مرة مقارنةً بوحدة المعالجة المركزية، مع تقليل استهلاك الطاقة بمقدار يصل إلى 5 مرات في الوقت نفسه.
تسهّل LiteRT الوصول إلى شرائح السيليكون المتخصّصة هذه من خلال حزمة موحّدة لتسريع الأجهزة. بدلاً من إدارة حِزم SDK مجزّأة وخاصة بمورّدين معيّنين أو واجهات برمجة تطبيقات معقّدة للأجهزة، توفّر LiteRT واجهة CompiledModel API مبسطة تجرّد تعقيد تحسين النماذج وإدارة الذاكرة وإرسال الأجهزة.
أنواع برامج تسريع النمو
توفّر LiteRT واجهة موحّدة لتنفيذ النماذج على مجموعة متنوعة من الخلفيات الخاصة بالأجهزة. من خلال الاستفادة من واجهة برمجة التطبيقات CompiledModel، يمكنك التبديل بسلاسة بين أدوات التسريع هذه باستخدام عملية الترجمة البرمجية على الجهاز أو عملية الترجمة البرمجية مسبقًا (AOT)، مع الرجوع تلقائيًا إلى وحدة المعالجة المركزية (CPU) للعمليات غير المتوافقة.
- وحدة المعالجة المركزية (CPU): مسار التنفيذ التلقائي الذي يستخدم XNNPACK ويتوفّر دائمًا. هذا الوضع مثالي للمهام العامة، وهو الوضع الاحتياطي لعوامل التشغيل غير المتوافقة.
- وحدة معالجة الرسومات (GPU): تستند إلى ML Drift، وتوفّر أداءً متطوّرًا على جميع المنصات الطرفية التي تستخدم OpenCL وWebGPU وMetal وما إلى ذلك. لمزيد من المعلومات، يُرجى الاطّلاع على تسريع وحدة معالجة الرسومات باستخدام LiteRT.
- وحدة المعالجة العصبية (NPU): أعلى كفاءة وأداء لأحمال عمل الذكاء الاصطناعي توفّر LiteRT سير عمل موحّدًا للتطوير يتيح الوصول إلى شرائح NPU المتخصّصة، بما في ذلك Google Tensor وQualcomm وMediaTek، بدون الحاجة إلى دمج حزمة SDK خاصة بمورّد معيّن. لمزيد من المعلومات، يُرجى الاطّلاع على تسريع وحدة المعالجة العصبية باستخدام LiteRT.
ويمكن الجمع بين هذه أدوات التسريع للحصول على أفضل أداء ممكن عندما لا تتوفّر بعض العمليات المعقّدة على جهاز معيّن. عندما تتنافس أدوات التسريع على عملية ما، تستخدم LiteRT ترتيب الأولوية التالي: وحدة المعالجة العصبية (NPU) ووحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CPU).