LiteRT-LM هو إطار عمل للاستنتاج جاهز للاستخدام ومفتوح المصدر ومصمّم لتقديم عمليات نشر نماذج لغوية كبيرة (LLM) عالية الأداء ومتوافقة مع عدة منصات على الأجهزة الطرفية.
- التوافق مع أنظمة التشغيل المختلفة: يمكن تشغيل التطبيق على Android وiOS والويب وأجهزة الكمبيوتر المكتبي وأجهزة إنترنت الأشياء (IoT) (مثل Raspberry Pi).
- تسريع الأجهزة: يمكنك الحصول على أعلى مستوى من الأداء وثبات النظام من خلال الاستفادة من مسرّعات وحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على مستوى الأجهزة المتنوعة.
- تعدّد الوسائط: يمكنك إنشاء تطبيقات باستخدام نماذج لغوية كبيرة تتوافق مع الصور والفيديوهات.
- استخدام الأدوات: إتاحة استخدام وظيفة الاتصال في مهام سير العمل المستندة إلى الذكاء الاصطناعي الوكيل مع فك ترميز محدود لتحسين الدقة.
- التوافق مع مجموعة واسعة من النماذج: يمكنك تشغيل Gemma وLlama وPhi-4 وQwen وغيرها.
معرض نماذج الذكاء الاصطناعي التوليدي على الجهاز
معرض Google AI Edge هو تطبيق تجريبي مصمّم لعرض إمكانات الذكاء الاصطناعي التوليدي على الجهاز فقط، والتي تعمل بالكامل بلا إنترنت باستخدام LiteRT-LM.
- Google Play: يمكنك استخدام نماذج اللغات الكبيرة محليًا على أجهزة Android المتوافقة.
- متجر التطبيقات: يمكنك تجربة الذكاء الاصطناعي على جهاز iOS فقط.
- مصدر GitHub: يمكنك الاطّلاع على الرمز المصدري لتطبيق المعرض لمعرفة كيفية دمج LiteRT-LM في مشاريعك.
الطراز المميز: Gemma-3n-E2B
| الملف الشخصي للجهاز | الوضع | الملء المُسبَق (لكل ثانية) | فك الترميز (ألف وحدة/ثانية) |
|---|---|---|---|
| MacBook Pro 2023 M3 | وحدة معالجة مركزية (CPU) | 233 | 28 |
| MacBook Pro 2024 M4 | وحدة معالجة الرسومات | 2265 | 48 |
| Samsung S24 (Ultra) | وحدة معالجة مركزية (CPU) | 111 | 16 |
| وحدة معالجة الرسومات | 816 | 16 |
بدء التطوير
توضّح المقتطفات التالية كيفية بدء استخدام واجهة سطر الأوامر LiteRT-LM، بالإضافة إلى واجهات برمجة التطبيقات Python وKotlin وC++.
CLI
litert-lm run model.litertlm --prompt="What is the capital of France?"
Python
engine = litert_lm.Engine("model.litertlm")
with engine.create_conversation() as conversation:
response = conversation.send_message("What is the capital of France?")
print(f"Response: {response['content'][0]['text']}")
Kotlin
val engineConfig = EngineConfig(
modelPath = "/path/to/your/model.litertlm",
backend = Backend.CPU(),
)
val engine = Engine(engineConfig)
engine.initialize()
val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))
C++
auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);
auto engine_settings = EngineSettings::CreateDefault(
model_assets,
/*backend=*/litert::lm::Backend::CPU);
absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);
auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);
absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
JsonMessage{
{"role", "user"},
{"content", "What is the capital of France?"}
});
CHECK_OK(model_message);
std::cout << *model_message << std::endl;
| اللغة | الحالة | يناسب هذا الخيار... | الوثائق |
|---|---|---|---|
| CLI | 🚀 معاينة مبكرة |
بدء استخدام LiteRT-LM في أقل من دقيقة واحدة | دليل واجهة سطر الأوامر |
| Python | ✅ ثابت |
تطوير النماذج الأولية بسرعة على أجهزة الكمبيوتر وRaspberry Pi | دليل Python |
| Kotlin | ✅ ثابت |
تطبيقات Android الأصلية وأدوات الكمبيوتر المكتبي المستندة إلى JVM محسَّن للاستخدام مع Coroutines | دليل Kotlin |
| C++ | ✅ ثابت |
أنظمة مدمجة ومنطق أساسي عالي الأداء ومتوافق مع عدّة منصات | دليل C++ |
| Swift | 🚀 قيد التطوير |
تتكامل هذه الأداة مع نظامَي التشغيل iOS وmacOS بشكلٍ أصلي، وتوفّر دعمًا متخصصًا لواجهة برمجة التطبيقات Metal. | قريبًا |
الأنظمة الخلفية والمنصات المتوافقة
| التسارع | Android | iOS | macOS | Windows | Linux | إنترنت الأشياء (IoT) |
|---|---|---|---|---|---|---|
| وحدة المعالجة المركزية | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| وحدة معالجة الرسومات | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | - | - | - |
النماذج المتوافقة
يسرد الجدول التالي النماذج المتوافقة مع LiteRT-LM. للاطّلاع على أرقام الأداء وبطاقات النماذج الأكثر تفصيلاً، يُرجى الانتقال إلى منتدى LiteRT على Hugging Face.
| الطراز | النوع | الحجم (ميغابايت) | رابط التنزيل | الجهاز | CPU Prefill (tk/s) | فك ترميز وحدة المعالجة المركزية (إطار في الثانية) | GPU Prefill (الرموز المميزة في الثانية) | فك الترميز باستخدام وحدة معالجة الرسومات (إطارات في الثانية) |
|---|---|---|---|---|---|---|---|---|
| Gemma3-1B | محادثة | 1005 | بطاقة النموذج | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| Gemma-3n-E2B | محادثة | 2965 | بطاقة النموذج | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | محادثة | 4235 | بطاقة النموذج | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| FunctionGemma | المجموعة الأساسية | 289 | بطاقة النموذج | هاتف Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | محادثة | 3906 | بطاقة النموذج | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | محادثة | 1598 | بطاقة النموذج | هاتف Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | محادثة | 586 | بطاقة النموذج | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | محادثة | 521 | بطاقة النموذج | Samsung S24 Ultra | 251 | 30 | - | - |
الإبلاغ عن المشاكل
إذا واجهت خطأً أو كان لديك طلب ميزة، يمكنك الإبلاغ عنه في مشاكل LiteRT-LM على GitHub.