نمای کلی LiteRT-LM

LiteRT-LM یک چارچوب استنتاج متن‌باز و آماده برای تولید است که برای ارائه استقرارهای LLM با کارایی بالا و چند پلتفرمی در دستگاه‌های لبه طراحی شده است.

  • پشتیبانی چند پلتفرمی: قابل اجرا بر روی اندروید، iOS، وب، دسکتاپ و اینترنت اشیا (مثلاً رزبری پای).
  • شتاب سخت‌افزاری: با بهره‌گیری از شتاب‌دهنده‌های GPU و NPU در سخت‌افزارهای متنوع، به اوج عملکرد و پایداری سیستم دست یابید.
  • چندوجهی: با LLM هایی که پشتیبانی بینایی و صوتی دارند، بسازید.
  • استفاده از ابزار: پشتیبانی از فراخوانی تابع برای گردش‌های کاری عاملی با رمزگشایی محدود برای بهبود دقت.
  • پشتیبانی گسترده از مدل‌ها: اجرای Gemma، Llama، Phi-4، Qwen و موارد دیگر.

ویترین GenAI روی دستگاه

اسکرین شات گالری گوگل هوش مصنوعی اج

گالری Google AI Edge یک برنامه آزمایشی است که برای نمایش قابلیت‌های هوش مصنوعی مولد روی دستگاه طراحی شده است و کاملاً آفلاین و با استفاده از LiteRT-LM اجرا می‌شود.

  • گوگل پلی : از LLM ها به صورت محلی در دستگاه های اندروید پشتیبانی شده استفاده کنید.
  • اپ استور : هوش مصنوعی درون دستگاهی را در دستگاه iOS خود تجربه کنید.
  • منبع گیت‌هاب : برای یادگیری نحوه ادغام LiteRT-LM در پروژه‌های خود، کد منبع برنامه گالری را مشاهده کنید.
  • حجم مدل: ۲.۵۸ گیگابایت
  • جزئیات فنی بیشتر در کارت مدل HuggingFace موجود است.

    پلتفرم (دستگاه) بک‌اند پیش پر کردن (tk/s) رمزگشایی (tk/s) زمان تا اولین توکن (ثانیه) حداکثر حافظه پردازنده (مگابایت)
    اندروید (S26 اولترا) پردازنده ۵۵۷ ۴۷ ۱.۸ ۱۷۳۳
    پردازنده گرافیکی ۳۸۰۸ ۵۲ ۰.۳ ۶۷۶ عدد
    آی‌او‌اس (آیفون ۱۷ پرو) پردازنده ۵۳۲ ۲۵ ۱.۹ ۶۰۷
    پردازنده گرافیکی ۲۸۷۸ ۵۶ ۰.۳ ۱۴۵۰
    لینوکس (آرم ۲.۳ و ۲.۸ گیگاهرتز، انویدیا جی‌فورس RTX ۴۰۹۰) پردازنده ۲۶۰ ۳۵ ۴ ۱۶۲۸
    پردازنده گرافیکی ۱۱۲۳۴ ۱۴۳ ۰.۱ ۹۱۳
    مک‌او‌اس (مک‌بوک پرو M4) پردازنده ۹۰۱ ۴۲ ۱.۱ ۷۳۶ عدد
    پردازنده گرافیکی 7835 ۱۶۰ ۰.۱ ۱۶۲۳
    اینترنت اشیا (رزبری پای ۵، ۱۶ گیگابایت) پردازنده ۱۳۳ ۸ ۷.۸ ۱۵۴۶

شروع به ساختن کنید

قطعه کدهای زیر نحوه شروع کار با رابط خط فرمان LiteRT-LM و همچنین APIهای پایتون، کاتلین و ++C را نشان می‌دهند.

رابط خط فرمان

litert-lm run model.litertlm --prompt="What is the capital of France?"

پایتون

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

کاتلین

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))  

سی++

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;
زبان وضعیت بهترین برای ... مستندات
رابط خط فرمان 🚀
پیش‌نمایش اولیه
شروع کار با LiteRT-LM در کمتر از ۱ دقیقه. راهنمای رابط خط فرمان (CLI)
پایتون
پایدار
نمونه‌سازی سریع، توسعه، روی دسکتاپ و رزبری پای. راهنمای پایتون
کاتلین
پایدار
برنامه‌های بومی اندروید و ابزارهای دسکتاپ مبتنی بر JVM. بهینه شده برای Coroutineها. راهنمای اندروید (کاتلین)
سی++
پایدار
سیستم‌های منطقی و تعبیه‌شده‌ی هسته‌ای با کارایی بالا و چندسکویی. راهنمای سی پلاس پلاس
سویفت 🚀
در توسعه
ادغام بومی iOS و macOS با پشتیبانی تخصصی Metal. به زودی

بک‌اندها و پلتفرم‌های پشتیبانی‌شده

شتاب اندروید آی‌او‌اس مک‌او‌اس ویندوز لینوکس اینترنت اشیا
پردازنده
پردازنده گرافیکی -
ان پی یو - - - - -

مدل‌های پشتیبانی‌شده

جدول زیر مدل‌های پشتیبانی‌شده توسط LiteRT-LM را فهرست می‌کند. برای اطلاعات بیشتر در مورد اعداد عملکرد و کارت‌های مدل، به انجمن LiteRT در Hugging Face مراجعه کنید.

مدل نوع حجم (مگابایت) جزئیات دستگاه پر کردن اولیه CPU (tk/s) رمزگشایی CPU (tk/s) پر کردن اولیه GPU (tk/s) رمزگشایی پردازنده گرافیکی (tk/s)
جما۴-ای۲بی چت ۲۵۸۳ عدد کارت مدل سامسونگ S26 اولترا ۵۵۷ ۴۷ ۳۸۰۸ ۵۲
آیفون ۱۷ پرو ۵۳۲ ۲۵ ۲۸۷۸ ۵۷
مک‌بوک پرو M4 ۹۰۱ ۴۲ 7835 ۱۶۰
جما۴-ای۴بی چت ۳۶۵۴ عدد کارت مدل سامسونگ S26 اولترا ۱۹۵ ۱۸ ۱۲۹۳ ۲۲
آیفون ۱۷ پرو ۱۵۹ ۱۰ ۱۱۸۹ ۲۵
مک‌بوک پرو M4 ۲۷۷ ۲۷ ۲۵۶۰ عدد ۱۰۱
جما-۳n-E2B چت ۲۹۶۵ عدد کارت مدل مک‌بوک پرو M3 ۲۳۳ ۲۸ - -
سامسونگ S24 اولترا ۱۱۱ ۱۶ ۸۱۶ عدد ۱۶
جما-۳n-E4B چت ۴۲۳۵ کارت مدل مک‌بوک پرو M3 ۱۷۰ ۲۰ - -
سامسونگ S24 اولترا ۷۴ ۹ ۵۴۸ ۹
جما۳-۱بی چت ۱۰۰۵ کارت مدل سامسونگ S24 اولترا ۱۷۷ ۳۳ ۱۱۹۱ ۲۴
تابع جما پایه ۲۸۹ کارت مدل سامسونگ S25 اولترا ۲۲۳۸ ۱۵۴ - -
فی-۴-مینی چت ۳۹۰۶ کارت مدل سامسونگ S24 اولترا ۶۷ ۷ ۳۱۴ ۱۰
کوئن ۲.۵-۱.۵ب چت ۱۵۹۸ کارت مدل سامسونگ S25 اولترا ۲۹۸ ۳۴ ۱۶۶۸ ۳۱
کوئن۳-۰.۶بی چت ۵۸۶ عدد کارت مدل ویوو X300 پرو ۱۶۵ ۹ ۵۸۰ ۲۱
کوئن ۲.۵-۰.۵بی چت ۵۲۱ کارت مدل سامسونگ S24 اولترا ۲۵۱ ۳۰ - -

گزارش مشکلات

اگر با اشکالی مواجه شدید یا درخواست ویژگی جدیدی دارید، آن را در LiteRT-LM GitHub Issues گزارش دهید.