LiteRT-LM یک چارچوب استنتاج متنباز و آماده برای تولید است که برای ارائه استقرارهای LLM با کارایی بالا و چند پلتفرمی در دستگاههای لبه طراحی شده است.
- پشتیبانی چند پلتفرمی: قابل اجرا بر روی اندروید، iOS، وب، دسکتاپ و اینترنت اشیا (مثلاً رزبری پای).
- شتاب سختافزاری: با بهرهگیری از شتابدهندههای GPU و NPU در سختافزارهای متنوع، به اوج عملکرد و پایداری سیستم دست یابید.
- چندوجهی: با LLM هایی که پشتیبانی بینایی و صوتی دارند، بسازید.
- استفاده از ابزار: پشتیبانی از فراخوانی تابع برای گردشهای کاری عاملی با رمزگشایی محدود برای بهبود دقت.
- پشتیبانی گسترده از مدلها: اجرای Gemma، Llama، Phi-4، Qwen و موارد دیگر.
چه جدید است ( نسخه ۰.۱۲.۰ )
- APIهای Swift : LiteRT-LM را به صورت بومی با شتابدهنده گرافیکی Metal در برنامههای iOS ادغام میکند. به راهنمای Swift مراجعه کنید.
- APIهای جاوااسکریپت وب : اجرای مدلها درون مرورگرهای وب با کارایی بالا با استفاده از GPU/CPU وب. به راهنمای جاوااسکریپت مراجعه کنید.
- بهروزرسانی رابط خط فرمان / رابط برنامهنویسی پایتون LiteRT-LM : رابط خط فرمان و رابط برنامهنویسی پایتون اکنون علاوه بر پشتیبانی از پردازنده مرکزی و پردازنده گرافیکی در لینوکس، macOS و ویندوز، از NPU نیز پشتیبانی میکنند. به راهنمای رابط خط فرمان مراجعه کنید.
- APIهای فلاتر که توسط جامعه توسعه داده شدهاند : با استفاده از بسته flutter_gemma که توسط جامعه توسعه داده شده است، برنامههای فلاتر چند پلتفرمی بسازید. به راهنمای فلاتر مراجعه کنید.
ویترین GenAI روی دستگاه
![]()
گالری Google AI Edge یک برنامه آزمایشی است که برای نمایش قابلیتهای هوش مصنوعی مولد روی دستگاه طراحی شده است و کاملاً آفلاین و با استفاده از LiteRT-LM اجرا میشود.
- گوگل پلی : از LLM ها به صورت محلی در دستگاه های اندروید پشتیبانی شده استفاده کنید.
- اپ استور : هوش مصنوعی درون دستگاهی را در دستگاه iOS خود تجربه کنید.
- منبع گیتهاب : برای یادگیری نحوه ادغام LiteRT-LM در پروژههای خود، کد منبع برنامه گالری را مشاهده کنید.
مدل ویژه: Gemma-4-E2B
- حجم مدل: ۲.۵۸ گیگابایت
جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.
پلتفرم (دستگاه) بکاند پیش پر کردن (tk/s) رمزگشایی (tk/s) زمان تا اولین توکن (ثانیه) حداکثر حافظه پردازنده (مگابایت) اندروید (S26 اولترا) پردازنده ۵۵۷ ۴۷ ۱.۸ ۱۷۳۳ پردازنده گرافیکی ۳۸۰۸ ۵۲ ۰.۳ ۶۷۶ عدد آیاواس (آیفون ۱۷ پرو) پردازنده ۵۳۲ ۲۵ ۱.۹ ۶۰۷ پردازنده گرافیکی ۲۸۷۸ ۵۶ ۰.۳ ۱۴۵۰ لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جیفورس RTX ۴۰۹۰) پردازنده ۲۶۰ ۳۵ ۴ ۱۶۲۸ پردازنده گرافیکی ۱۱۲۳۴ ۱۴۳ ۰.۱ ۹۱۳ مکاواس (مکبوک پرو M4) پردازنده ۹۰۱ ۴۲ ۱.۱ ۷۳۶ عدد پردازنده گرافیکی 7835 ۱۶۰ ۰.۱ ۱۶۲۳ ویندوز (اینتل لونار لیک) پردازنده ۴۳۵ ۳۰ ۲.۴ ۳۵۰۵ پردازنده گرافیکی ۳۷۵۱ ۴۸ ۰.۳ ۳۵۴۰ اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت) پردازنده ۱۳۳ ۸ ۷.۸ ۱۵۴۶
شروع به ساختن کنید
LiteRT-LM رابطهای برنامهنویسی (API) را برای چندین زبان برنامهنویسی و پلتفرم ارائه میدهد تا به شما در ساخت سریع برنامههای هوش مصنوعی روی دستگاه کمک کند. برای شروع، یکی از راهنماهای زیر را انتخاب کنید:
| زبان | وضعیت | بهترین برای ... | مستندات |
|---|---|---|---|
| رابط خط فرمان | ✅ پایدار | شروع کار با LiteRT-LM در کمتر از ۱ دقیقه. | راهنمای رابط خط فرمان (CLI) |
| پایتون | ✅ پایدار | نمونهسازی سریع، توسعه، روی دسکتاپ و رزبری پای. | راهنمای پایتون |
| کاتلین | ✅ پایدار | برنامههای بومی اندروید و ابزارهای دسکتاپ مبتنی بر JVM. بهینه شده برای Coroutineها. | راهنمای کاتلین |
| سویفت | 🚀 پیشنمایش اولیه | ادغام بومی iOS و macOS با پشتیبانی تخصصی Metal. | راهنمای سویفت |
| جاوا اسکریپت (وب) | 🚀 پیشنمایش اولیه | مدلها را مستقیماً در مرورگرهای وب با کارایی بالا مستقر کنید. | راهنمای جاوا اسکریپت |
| فلوتر | 🚀 جامعه | برنامههای چند پلتفرمی فلاتر با استفاده از انجمن flutter_gemma . | راهنمای فلاتر |
| سی++ | ✅ پایدار | سیستمهای منطقی و تعبیهشدهی هستهای با کارایی بالا و چندسکویی. | راهنمای سی پلاس پلاس |
ساخت از منبع
اگر میخواهید LiteRT-LM را سفارشیسازی کنید یا آن را برای پیکربندی سختافزاری خاصی بسازید، میتوانید آن را مستقیماً از کد منبع کامپایل کنید. برای دستورالعملهای گام به گام در مورد نحوه راهاندازی محیط و ساخت چارچوب، به راهنمای ساخت و اجرای LiteRT-LM در GitHub مراجعه کنید.
بکاندها و پلتفرمهای پشتیبانیشده
| شتاب | اندروید | آیاواس | مکاواس | ویندوز | لینوکس | اینترنت اشیا |
|---|---|---|---|---|---|---|
| پردازنده | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| پردازنده گرافیکی | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| ان پی یو | ✅ | - | - | 🚀 | - | - |
مدلهای پشتیبانیشده
جدول زیر مدلهای پشتیبانیشده توسط LiteRT-LM را فهرست میکند. برای اطلاعات بیشتر در مورد اعداد عملکرد و کارتهای مدل، به انجمن LiteRT در Hugging Face مراجعه کنید.
| مدل | نوع | حجم (مگابایت) | جزئیات | دستگاه | پر کردن اولیه CPU (tk/s) | رمزگشایی CPU (tk/s) | پر کردن اولیه GPU (tk/s) | رمزگشایی پردازنده گرافیکی (tk/s) |
|---|---|---|---|---|---|---|---|---|
| جما۴-ای۲بی | چت | ۲۵۸۳ عدد | کارت مدل | سامسونگ S26 اولترا | ۵۵۷ | ۴۷ | ۳۸۰۸ | ۵۲ |
| آیفون ۱۷ پرو | ۵۳۲ | ۲۵ | ۲۸۷۸ | ۵۷ | ||||
| مکبوک پرو M4 | ۹۰۱ | ۴۲ | 7835 | ۱۶۰ | ||||
| جما۴-ای۴بی | چت | ۳۶۵۴ عدد | کارت مدل | سامسونگ S26 اولترا | ۱۹۵ | ۱۸ | ۱۲۹۳ | ۲۲ |
| آیفون ۱۷ پرو | ۱۵۹ | ۱۰ | ۱۱۸۹ | ۲۵ | ||||
| مکبوک پرو M4 | ۲۷۷ | ۲۷ | ۲۵۶۰ عدد | ۱۰۱ | ||||
| جما-۳n-E2B | چت | ۲۹۶۵ عدد | کارت مدل | مکبوک پرو M3 | ۲۳۳ | ۲۸ | - | - |
| سامسونگ S24 اولترا | ۱۱۱ | ۱۶ | ۸۱۶ عدد | ۱۶ | ||||
| جما-۳n-E4B | چت | ۴۲۳۵ | کارت مدل | مکبوک پرو M3 | ۱۷۰ | ۲۰ | - | - |
| سامسونگ S24 اولترا | ۷۴ | ۹ | ۵۴۸ | ۹ | ||||
| جما۳-۱بی | چت | ۱۰۰۵ | کارت مدل | سامسونگ S24 اولترا | ۱۷۷ | ۳۳ | ۱۱۹۱ | ۲۴ |
| تابع جما | پایه | ۲۸۹ | کارت مدل | سامسونگ S25 اولترا | ۲۲۳۸ | ۱۵۴ | - | - |
| فی-۴-مینی | چت | ۳۹۰۶ | کارت مدل | سامسونگ S24 اولترا | ۶۷ | ۷ | ۳۱۴ | ۱۰ |
| کوئن ۲.۵-۱.۵ب | چت | ۱۵۹۸ | کارت مدل | سامسونگ S25 اولترا | ۲۹۸ | ۳۴ | ۱۶۶۸ | ۳۱ |
| کوئن۳-۰.۶بی | چت | ۵۸۶ عدد | کارت مدل | ویوو X300 پرو | ۱۶۵ | ۹ | ۵۸۰ | ۲۱ |
| کوئن ۲.۵-۰.۵بی | چت | ۵۲۱ | کارت مدل | سامسونگ S24 اولترا | ۲۵۱ | ۳۰ | - | - |
گزارش مشکلات
اگر با اشکالی مواجه شدید یا درخواست ویژگی جدیدی دارید، آن را در LiteRT-LM GitHub Issues گزارش دهید.