LiteRT-LM یک چارچوب استنتاج متنباز و آماده برای تولید است که برای ارائه استقرارهای LLM با کارایی بالا و چند پلتفرمی در دستگاههای لبه طراحی شده است.
ویژگیهای کلیدی
- پشتیبانی چند پلتفرمی: قابل اجرا بر روی اندروید، iOS، وب و دسکتاپ.
- شتاب سختافزاری:
- پردازنده گرافیکی (GPU): با پشتیبانی از ML Drift، از هر دو مدل ML و Generative AI پشتیبانی میکند.
- NPU: استنتاج تسریعشده در دستگاههایی با تراشههای کوالکام و مدیاتک (دسترسی زودهنگام).
- چندوجهی: پشتیبانی از ورودی تصویر و صدا.
- کاربرد ابزار: پشتیبانی از فراخوانی تابع برای گردشهای کاری عاملمحور.
- پشتیبانی گسترده از مدلها: اجرای Gemma، Llama، Phi-4، Qwen و موارد دیگر.
بکاندها و پلتفرمهای پشتیبانیشده
| پلتفرم | پشتیبانی از پردازنده | پشتیبانی از پردازنده گرافیکی | پشتیبانی از NPU |
|---|---|---|---|
| اندروید | ✅ | ✅ | ✅ |
| آیاواس | ✅ | ✅ | - |
| مکاواس | ✅ | ✅ | - |
| ویندوز | ✅ | ✅ | - |
| لینوکس | ✅ | ✅ | - |
| جاسازی شده | ✅ | - | - |
شروع سریع
میخواهید اول آن را امتحان کنید؟ قبل از ادامهی راهاندازی کامل، میتوانید از فایلهای باینری از پیش ساخته شده برای دسکتاپ یا برنامهی Google AI Edge Gallery برای موبایل برای اجرای فوری LiteRT-LM استفاده کنید.
اپلیکیشنهای موبایل
گالری Google AI Edge یک برنامه آزمایشی است که قدرت مدلهای پیشرفته هوش مصنوعی مولد را مستقیماً در اختیار شما قرار میدهد و توسط LiteRT-LM پشتیبانی میشود.
- اپلیکیشن گالری لبه هوش مصنوعی اندروید
- اپلیکیشن گالری لبه هوش مصنوعی iOS
- گالری هوش مصنوعی لبه در گیتهاب
رابط خط فرمان دسکتاپ
پس از دانلود فایل باینری lit ، کافیست lit را اجرا کنید تا گزینهها را ببینید.
پلتفرم خود را انتخاب کنید
| زبان | وضعیت | بهترین برای ... | مستندات |
|---|---|---|---|
| کاتلین | ✅ پایدار | برنامههای بومی اندروید و ابزارهای دسکتاپ مبتنی بر JVM. بهینه شده برای Coroutineها. | مرجع API کاتلین |
| سی++ | ✅ پایدار | سیستمهای منطقی و تعبیهشدهی هستهای با کارایی بالا و چندسکویی. | مرجع API سی پلاس پلاس |
| سویفت | 🚀 در توسعه | ادغام بومی iOS و macOS با پشتیبانی تخصصی Metal. | به زودی |
| پایتون | 🚀 در توسعه | نمونهسازی سریع، توسعه و اسکریپتنویسی سمت دسکتاپ | به زودی |
مدلهای پشتیبانیشده
جدول زیر نمونهای از مدلهایی را نشان میدهد که به طور کامل توسط LiteRT-LM پشتیبانی و آزمایش شدهاند.
توجه: عبارت «آماده برای چت» نشاندهنده مدلهایی است که برای چت تنظیم شدهاند (تنظیم دستورالعمل). مدلهای «پایه» اغلب برای عملکرد بهینه چت نیاز به تنظیم دقیق دارند، مگر اینکه برای تکمیلهای خاص استفاده شوند.
| مدل | نوع | کوانتیزاسیون | طول متن | حجم (مگابایت) | دانلود |
|---|---|---|---|---|---|
| جما | |||||
| جما۳-۱بی | چت آماده | ۴ بیت در هر کانال | ۴۰۹۶ عدد | ۵۵۷ | دانلود |
| جما-۳n-E2B | چت آماده | ۴ بیت در هر کانال | ۴۰۹۶ عدد | ۲۹۶۵ عدد | دانلود |
| جما-۳n-E4B | چت آماده | ۴ بیت در هر کانال | ۴۰۹۶ عدد | ۴۲۳۵ | دانلود |
| تابعGemma-270M | پایه (نیاز به تنظیم دقیق دارد) | ۸ بیت در هر کانال | ۱۰۲۴ عدد | ۲۸۸ | راهنمای تنظیم دقیق |
| ↪ تاینیگاردن-۲۷۰ ام | نسخه آزمایشی | ۸ بیت در هر کانال | ۱۰۲۴ عدد | ۲۸۸ | دانلود / امتحان برنامه |
| لاما | |||||
| لاما-۳.۲-۱ب-دستورالعمل | چت آماده | ۸ بیت در هر کانال | ۸۱۹۲ | ۱۱۶۲ | دانلود |
| لاما-۳.۲-۳ب-دستورالعمل | چت آماده | ۸ بیت در هر کانال | ۸۱۹۲ | ۲۸۹۳ | دانلود |
| فی | |||||
| فی-۴-مینی | چت آماده | ۸ بیت در هر کانال | ۴۰۹۶ عدد | ۳۷۲۸ عدد | دانلود |
| کوئن | |||||
| qwen2.5-1.5b | چت آماده | ۸ بیت در هر کانال | ۴۰۹۶ عدد | ۱۵۲۴ | دانلود |
عملکرد
در زیر اعداد عملکرد اجرای هر مدل روی دستگاههای مختلف آمده است. توجه داشته باشید که این معیار با ۱۰۲۴ توکن پیشپر شده و ۲۵۶ توکن رمزگشایی شده (با قفل عملکرد روی دستگاههای اندروید) اندازهگیری شده است.
| مدل | دستگاه | بکاند | پیشپر کردن (توکن/ثانیه) | رمزگشایی (توکن/ثانیه) | اندازه متن |
|---|---|---|---|---|---|
| جما۳-۱بی | مکبوک پرو (2023 ام3) | پردازنده | ۴۲۳ | ۶۷ | ۴۰۹۶ عدد |
| جما۳-۱بی | سامسونگ S24 (فوق العاده) | پردازنده | ۲۴۳ | ۴۴ | ۴۰۹۶ عدد |
| جما۳-۱بی | سامسونگ S24 (فوق العاده) | پردازنده گرافیکی | ۱۸۷۷ میلادی | ۴۵ | ۴۰۹۶ عدد |
| جما۳-۱بی | سامسونگ S25 (فوق العاده) | ان پی یو | ۵۸۳۷ عدد | ۸۵ | ۱۲۸۰ |
| جما-۳n-E2B | مکبوک پرو (2023 ام3) | پردازنده | ۲۳۳ | ۲۸ | ۴۰۹۶ عدد |
| جما-۳n-E2B | سامسونگ S24 (فوق العاده) | پردازنده | ۱۱۱ | ۱۶ | ۴۰۹۶ عدد |
| جما-۳n-E2B | سامسونگ S24 (فوق العاده) | پردازنده گرافیکی | ۸۱۶ عدد | ۱۶ | ۴۰۹۶ عدد |
| جما-۳n-E4B | مکبوک پرو (2023 ام3) | پردازنده | ۱۷۰ | ۲۰ | ۴۰۹۶ عدد |
| جما-۳n-E4B | سامسونگ S24 (فوق العاده) | پردازنده | ۷۴ | ۹ | ۴۰۹۶ عدد |
| جما-۳n-E4B | سامسونگ S24 (فوق العاده) | پردازنده گرافیکی | ۵۴۸ | ۹ | ۴۰۹۶ عدد |
| تابع جما | سامسونگ S25 (فوق العاده) | پردازنده | ۱۷۱۸ | ۱۲۶ | ۱۰۲۴ عدد |
توجه: اولین باری که یک مدل روی یک دستگاه مشخص بارگذاری میشود، با بهینهسازی وزنها، بارگذاری آن بیشتر طول میکشد. بارگذاریهای بعدی به دلیل ذخیرهسازی سریعتر خواهند بود.
میزبانی و استقرار مدل
وقتی یک مدل از محدودیت دانلود «از طریق هوا» (اغلب حدود ۱.۵ گیگابایت) فراتر میرود، یک استراتژی واکشی از راه دور مورد نیاز است.
- فایربیس: برای دانلود فایلهای حجیم در اندروید و iOS توصیه میشود.
- HuggingFace API: مدلها را مستقیماً با استفاده از HuggingFace API دریافت کنید.
گزارش مشکلات
اگر با اشکالی مواجه شدید یا درخواست ویژگی جدیدی دارید، لطفاً از صفحه مشکلات LiteRT-LM GitHub استفاده کنید.