نمای کلی LiteRT-LM

LiteRT-LM یک چارچوب استنتاج متن‌باز و آماده برای تولید است که برای ارائه استقرارهای LLM با کارایی بالا و چند پلتفرمی در دستگاه‌های لبه طراحی شده است.

پشتیبانی چند پلتفرمی: قابل اجرا بر روی اندروید، iOS، وب، دسکتاپ و اینترنت اشیا (مثلاً رزبری پای).
شتاب سخت‌افزاری: با بهره‌گیری از شتاب‌دهنده‌های GPU و NPU در سخت‌افزارهای متنوع، به اوج عملکرد و پایداری سیستم دست یابید.
چندوجهی: با LLM هایی که پشتیبانی بینایی و صوتی دارند، بسازید.
استفاده از ابزار: پشتیبانی از فراخوانی تابع برای گردش‌های کاری عاملی با رمزگشایی محدود برای بهبود دقت.
پشتیبانی گسترده از مدل‌ها: اجرای Gemma، Llama، Phi-4، Qwen و موارد دیگر.

چه جدید است ( نسخه ۰.۱۲.۰ )

APIهای Swift : LiteRT-LM را به صورت بومی با شتاب‌دهنده گرافیکی Metal در برنامه‌های iOS ادغام می‌کند. به راهنمای Swift مراجعه کنید.
APIهای جاوااسکریپت وب : اجرای مدل‌ها درون مرورگرهای وب با کارایی بالا با استفاده از GPU/CPU وب. به راهنمای جاوااسکریپت مراجعه کنید.
به‌روزرسانی رابط خط فرمان / رابط برنامه‌نویسی پایتون LiteRT-LM : رابط خط فرمان و رابط برنامه‌نویسی پایتون اکنون علاوه بر پشتیبانی از پردازنده مرکزی و پردازنده گرافیکی در لینوکس، macOS و ویندوز، از NPU نیز پشتیبانی می‌کنند. به راهنمای رابط خط فرمان مراجعه کنید.
APIهای فلاتر که توسط جامعه توسعه داده شده‌اند : با استفاده از بسته flutter_gemma که توسط جامعه توسعه داده شده است، برنامه‌های فلاتر چند پلتفرمی بسازید. به راهنمای فلاتر مراجعه کنید.

ویترین GenAI روی دستگاه

گالری تصاویر گوگل هوش مصنوعی اج

گالری Google AI Edge یک برنامه آزمایشی است که برای نمایش قابلیت‌های هوش مصنوعی مولد روی دستگاه طراحی شده است و کاملاً آفلاین و با استفاده از LiteRT-LM اجرا می‌شود.

گوگل پلی : از LLM ها به صورت محلی در دستگاه های اندروید پشتیبانی شده استفاده کنید.
اپ استور : هوش مصنوعی درون دستگاهی را در دستگاه iOS خود تجربه کنید.
منبع گیت‌هاب : برای یادگیری نحوه ادغام LiteRT-LM در پروژه‌های خود، کد منبع برنامه گالری را مشاهده کنید.

مدل ویژه: Gemma-4-E2B

حجم مدل: ۲.۵۸ گیگابایت

جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.

پلتفرم (دستگاه)	بک‌اند	پیش پر کردن (tk/s)	رمزگشایی (tk/s)	زمان تا اولین توکن (ثانیه)	حداکثر حافظه پردازنده (مگابایت)
اندروید (S26 اولترا)	پردازنده	۵۵۷	۴۷	۱.۸	۱۷۳۳
اندروید (S26 اولترا)	پردازنده گرافیکی	۳۸۰۸	۵۲	۰.۳	۶۷۶ عدد
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده	۵۳۲	۲۵	۱.۹	۶۰۷
آی‌او‌اس (آیفون ۱۷ پرو)	پردازنده گرافیکی	۲۸۷۸	۵۶	۰.۳	۱۴۵۰
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جی‌فورس RTX ۴۰۹۰)	پردازنده	۲۶۰	۳۵	۴	۱۶۲۸
لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جی‌فورس RTX ۴۰۹۰)	پردازنده گرافیکی	۱۱۲۳۴	۱۴۳	۰.۱	۹۱۳
مک‌او‌اس (مک‌بوک پرو M4)	پردازنده	۹۰۱	۴۲	۱.۱	۷۳۶ عدد
مک‌او‌اس (مک‌بوک پرو M4)	پردازنده گرافیکی	7835	۱۶۰	۰.۱	۱۶۲۳
ویندوز (اینتل لونار لیک)	پردازنده	۴۳۵	۳۰	۲.۴	۳۵۰۵
ویندوز (اینتل لونار لیک)	پردازنده گرافیکی	۳۷۵۱	۴۸	۰.۳	۳۵۴۰
اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت)	پردازنده	۱۳۳	۸	۷.۸	۱۵۴۶

شروع به ساختن کنید

LiteRT-LM رابط‌های برنامه‌نویسی (API) را برای چندین زبان برنامه‌نویسی و پلتفرم ارائه می‌دهد تا به شما در ساخت سریع برنامه‌های هوش مصنوعی روی دستگاه کمک کند. برای شروع، یکی از راهنماهای زیر را انتخاب کنید:

زبان	وضعیت	بهترین برای ...	مستندات
رابط خط فرمان	✅ پایدار	شروع کار با LiteRT-LM در کمتر از ۱ دقیقه.	راهنمای رابط خط فرمان (CLI)
پایتون	✅ پایدار	نمونه‌سازی سریع، توسعه، روی دسکتاپ و رزبری پای.	راهنمای پایتون
کاتلین	✅ پایدار	برنامه‌های بومی اندروید و ابزارهای دسکتاپ مبتنی بر JVM. بهینه شده برای Coroutineها.	راهنمای کاتلین
سویفت	🚀 پیش‌نمایش اولیه	ادغام بومی iOS و macOS با پشتیبانی تخصصی Metal.	راهنمای سویفت
جاوا اسکریپت (وب)	🚀 پیش‌نمایش اولیه	مدل‌ها را مستقیماً در مرورگرهای وب با کارایی بالا مستقر کنید.	راهنمای جاوا اسکریپت
فلوتر	🚀 جامعه	برنامه‌های چند پلتفرمی فلاتر با استفاده از انجمن `flutter_gemma` .	راهنمای فلاتر
سی++	✅ پایدار	سیستم‌های منطقی و تعبیه‌شده‌ی هسته‌ای با کارایی بالا و چندسکویی.	راهنمای سی پلاس پلاس

ساخت از منبع

اگر می‌خواهید LiteRT-LM را سفارشی‌سازی کنید یا آن را برای پیکربندی سخت‌افزاری خاصی بسازید، می‌توانید آن را مستقیماً از کد منبع کامپایل کنید. برای دستورالعمل‌های گام به گام در مورد نحوه راه‌اندازی محیط و ساخت چارچوب، به راهنمای ساخت و اجرای LiteRT-LM در GitHub مراجعه کنید.

بک‌اندها و پلتفرم‌های پشتیبانی‌شده

شتاب	اندروید	آی‌او‌اس	مک‌او‌اس	ویندوز	لینوکس	اینترنت اشیا
پردازنده	✅	✅	✅	✅	✅	✅
پردازنده گرافیکی	✅	✅	✅	✅	✅	-
ان پی یو	✅	-	-	🚀	-	-

مدل‌های پشتیبانی‌شده

جدول زیر مدل‌های پشتیبانی‌شده توسط LiteRT-LM را فهرست می‌کند. برای اطلاعات بیشتر در مورد اعداد عملکرد و کارت‌های مدل، به انجمن LiteRT در Hugging Face مراجعه کنید.

مدل	نوع	حجم (مگابایت)	جزئیات	دستگاه	پر کردن اولیه CPU (tk/s)	رمزگشایی CPU (tk/s)	پر کردن اولیه GPU (tk/s)	رمزگشایی پردازنده گرافیکی (tk/s)
جما۴-ای۲بی	چت	۲۵۸۳ عدد	کارت مدل	سامسونگ S26 اولترا	۵۵۷	۴۷	۳۸۰۸	۵۲
				آیفون ۱۷ پرو	۵۳۲	۲۵	۲۸۷۸	۵۷
				مک‌بوک پرو M4	۹۰۱	۴۲	7835	۱۶۰
جما۴-ای۴بی	چت	۳۶۵۴ عدد	کارت مدل	سامسونگ S26 اولترا	۱۹۵	۱۸	۱۲۹۳	۲۲
				آیفون ۱۷ پرو	۱۵۹	۱۰	۱۱۸۹	۲۵
				مک‌بوک پرو M4	۲۷۷	۲۷	۲۵۶۰ عدد	۱۰۱
جما-۳n-E2B	چت	۲۹۶۵ عدد	کارت مدل	مک‌بوک پرو M3	۲۳۳	۲۸	-	-
				سامسونگ S24 اولترا	۱۱۱	۱۶	۸۱۶ عدد	۱۶
جما-۳n-E4B	چت	۴۲۳۵	کارت مدل	مک‌بوک پرو M3	۱۷۰	۲۰	-	-
				سامسونگ S24 اولترا	۷۴	۹	۵۴۸	۹
جما۳-۱بی	چت	۱۰۰۵	کارت مدل	سامسونگ S24 اولترا	۱۷۷	۳۳	۱۱۹۱	۲۴
تابع جما	پایه	۲۸۹	کارت مدل	سامسونگ S25 اولترا	۲۲۳۸	۱۵۴	-	-
فی-۴-مینی	چت	۳۹۰۶	کارت مدل	سامسونگ S24 اولترا	۶۷	۷	۳۱۴	۱۰
کوئن ۲.۵-۱.۵ب	چت	۱۵۹۸	کارت مدل	سامسونگ S25 اولترا	۲۹۸	۳۴	۱۶۶۸	۳۱
کوئن۳-۰.۶بی	چت	۵۸۶ عدد	کارت مدل	ویوو X300 پرو	۱۶۵	۹	۵۸۰	۲۱
کوئن ۲.۵-۰.۵بی	چت	۵۲۱	کارت مدل	سامسونگ S24 اولترا	۲۵۱	۳۰	-	-

گزارش مشکلات

اگر با اشکالی مواجه شدید یا درخواست ویژگی جدیدی دارید، آن را در LiteRT-LM GitHub Issues گزارش دهید.