نمای کلی LiteRT-LM

LiteRT-LM یک چارچوب استنتاج متن‌باز و آماده برای تولید است که برای ارائه استقرارهای LLM با کارایی بالا و چند پلتفرمی در دستگاه‌های لبه طراحی شده است.

ویژگی‌های کلیدی

  • پشتیبانی چند پلتفرمی: قابل اجرا بر روی اندروید، iOS، وب و دسکتاپ.
  • شتاب سخت‌افزاری:
    • پردازنده گرافیکی (GPU): با پشتیبانی از ML Drift، از هر دو مدل ML و Generative AI پشتیبانی می‌کند.
    • NPU: استنتاج تسریع‌شده در دستگاه‌هایی با تراشه‌های کوالکام و مدیاتک (دسترسی زودهنگام).
  • چندوجهی: پشتیبانی از ورودی تصویر و صدا.
  • کاربرد ابزار: پشتیبانی از فراخوانی تابع برای گردش‌های کاری عامل‌محور.
  • پشتیبانی گسترده از مدل‌ها: اجرای Gemma، Llama، Phi-4، Qwen و موارد دیگر.

بک‌اندها و پلتفرم‌های پشتیبانی‌شده

پلتفرم پشتیبانی از پردازنده پشتیبانی از پردازنده گرافیکی پشتیبانی از NPU
اندروید
آی‌او‌اس -
مک‌او‌اس -
ویندوز -
لینوکس -
جاسازی شده - -

شروع سریع

می‌خواهید اول آن را امتحان کنید؟ قبل از ادامه‌ی راه‌اندازی کامل، می‌توانید از فایل‌های باینری از پیش ساخته شده برای دسکتاپ یا برنامه‌ی Google AI Edge Gallery برای موبایل برای اجرای فوری LiteRT-LM استفاده کنید.

اپلیکیشن‌های موبایل

گالری Google AI Edge یک برنامه آزمایشی است که قدرت مدل‌های پیشرفته هوش مصنوعی مولد را مستقیماً در اختیار شما قرار می‌دهد و توسط LiteRT-LM پشتیبانی می‌شود.

رابط خط فرمان دسکتاپ

پس از دانلود فایل باینری lit ، کافیست lit را اجرا کنید تا گزینه‌ها را ببینید.

پلتفرم خود را انتخاب کنید

زبان وضعیت بهترین برای ... مستندات
کاتلین
پایدار
برنامه‌های بومی اندروید و ابزارهای دسکتاپ مبتنی بر JVM. بهینه شده برای Coroutineها. مرجع API کاتلین
سی++
پایدار
سیستم‌های منطقی و تعبیه‌شده‌ی هسته‌ای با کارایی بالا و چندسکویی. مرجع API سی پلاس پلاس
سویفت 🚀
در توسعه
ادغام بومی iOS و macOS با پشتیبانی تخصصی Metal. به زودی
پایتون 🚀
در توسعه
نمونه‌سازی سریع، توسعه و اسکریپت‌نویسی سمت دسکتاپ به زودی

مدل‌های پشتیبانی‌شده

جدول زیر نمونه‌ای از مدل‌هایی را نشان می‌دهد که به طور کامل توسط LiteRT-LM پشتیبانی و آزمایش شده‌اند.

توجه: عبارت «آماده برای چت» نشان‌دهنده مدل‌هایی است که برای چت تنظیم شده‌اند (تنظیم دستورالعمل). مدل‌های «پایه» اغلب برای عملکرد بهینه چت نیاز به تنظیم دقیق دارند، مگر اینکه برای تکمیل‌های خاص استفاده شوند.

مدل نوع کوانتیزاسیون طول متن حجم (مگابایت) دانلود
جما
جما۳-۱بی چت آماده ۴ بیت در هر کانال ۴۰۹۶ عدد ۵۵۷ دانلود
جما-۳n-E2B چت آماده ۴ بیت در هر کانال ۴۰۹۶ عدد ۲۹۶۵ عدد دانلود
جما-۳n-E4B چت آماده ۴ بیت در هر کانال ۴۰۹۶ عدد ۴۲۳۵ دانلود
تابعGemma-270M پایه (نیاز به تنظیم دقیق دارد) ۸ بیت در هر کانال ۱۰۲۴ عدد ۲۸۸ راهنمای تنظیم دقیق
↪ تاینی‌گاردن-۲۷۰ ام نسخه آزمایشی ۸ بیت در هر کانال ۱۰۲۴ عدد ۲۸۸ دانلود / امتحان برنامه
لاما
لاما-۳.۲-۱ب-دستورالعمل چت آماده ۸ بیت در هر کانال ۸۱۹۲ ۱۱۶۲ دانلود
لاما-۳.۲-۳ب-دستورالعمل چت آماده ۸ بیت در هر کانال ۸۱۹۲ ۲۸۹۳ دانلود
فی
فی-۴-مینی چت آماده ۸ بیت در هر کانال ۴۰۹۶ عدد ۳۷۲۸ عدد دانلود
کوئن
qwen2.5-1.5b چت آماده ۸ بیت در هر کانال ۴۰۹۶ عدد ۱۵۲۴ دانلود

عملکرد

در زیر اعداد عملکرد اجرای هر مدل روی دستگاه‌های مختلف آمده است. توجه داشته باشید که این معیار با ۱۰۲۴ توکن پیش‌پر شده و ۲۵۶ توکن رمزگشایی شده (با قفل عملکرد روی دستگاه‌های اندروید) اندازه‌گیری شده است.

مدل دستگاه بک‌اند پیش‌پر کردن (توکن/ثانیه) رمزگشایی (توکن/ثانیه) اندازه متن
جما۳-۱بی مک‌بوک پرو
(2023 ام3)
پردازنده ۴۲۳ ۶۷ ۴۰۹۶ عدد
جما۳-۱بی سامسونگ S24
(فوق العاده)
پردازنده ۲۴۳ ۴۴ ۴۰۹۶ عدد
جما۳-۱بی سامسونگ S24
(فوق العاده)
پردازنده گرافیکی ۱۸۷۷ میلادی ۴۵ ۴۰۹۶ عدد
جما۳-۱بی سامسونگ S25
(فوق العاده)
ان پی یو ۵۸۳۷ عدد ۸۵ ۱۲۸۰
جما-۳n-E2B مک‌بوک پرو
(2023 ام3)
پردازنده ۲۳۳ ۲۸ ۴۰۹۶ عدد
جما-۳n-E2B سامسونگ S24
(فوق العاده)
پردازنده ۱۱۱ ۱۶ ۴۰۹۶ عدد
جما-۳n-E2B سامسونگ S24
(فوق العاده)
پردازنده گرافیکی ۸۱۶ عدد ۱۶ ۴۰۹۶ عدد
جما-۳n-E4B مک‌بوک پرو
(2023 ام3)
پردازنده ۱۷۰ ۲۰ ۴۰۹۶ عدد
جما-۳n-E4B سامسونگ S24
(فوق العاده)
پردازنده ۷۴ ۹ ۴۰۹۶ عدد
جما-۳n-E4B سامسونگ S24
(فوق العاده)
پردازنده گرافیکی ۵۴۸ ۹ ۴۰۹۶ عدد
تابع جما سامسونگ S25
(فوق العاده)
پردازنده ۱۷۱۸ ۱۲۶ ۱۰۲۴ عدد

توجه: اولین باری که یک مدل روی یک دستگاه مشخص بارگذاری می‌شود، با بهینه‌سازی وزن‌ها، بارگذاری آن بیشتر طول می‌کشد. بارگذاری‌های بعدی به دلیل ذخیره‌سازی سریع‌تر خواهند بود.

میزبانی و استقرار مدل

وقتی یک مدل از محدودیت دانلود «از طریق هوا» (اغلب حدود ۱.۵ گیگابایت) فراتر می‌رود، یک استراتژی واکشی از راه دور مورد نیاز است.

  • فایربیس: برای دانلود فایل‌های حجیم در اندروید و iOS توصیه می‌شود.
  • HuggingFace API: مدل‌ها را مستقیماً با استفاده از HuggingFace API دریافت کنید.

گزارش مشکلات

اگر با اشکالی مواجه شدید یا درخواست ویژگی جدیدی دارید، لطفاً از صفحه مشکلات LiteRT-LM GitHub استفاده کنید.