نقدّم لك Google AI Edge Portal: أداة لقياس أداء الذكاء الاصطناعي على الأجهزة الطرفية على نطاق واسع. الاشتراك لطلب الوصول أثناء فترة المعاينة الخاصة

نظرة عامة على LiteRT-LM

‫LiteRT-LM هو إطار عمل للاستنتاج جاهز للاستخدام ومفتوح المصدر ومصمّم لتقديم عمليات نشر نماذج لغوية كبيرة (LLM) عالية الأداء ومتوافقة مع عدة منصات على الأجهزة الطرفية.

التوافق مع أنظمة التشغيل المختلفة: يمكن تشغيل التطبيق على Android وiOS والويب وأجهزة الكمبيوتر المكتبي وأجهزة إنترنت الأشياء (IoT) (مثل Raspberry Pi).
تسريع الأجهزة: يمكنك الحصول على أعلى مستوى من الأداء وثبات النظام من خلال الاستفادة من مسرّعات وحدة معالجة الرسومات (GPU) ووحدة المعالجة العصبية (NPU) على مستوى الأجهزة المتنوعة.
تعدّد الوسائط: يمكنك إنشاء تطبيقات باستخدام نماذج لغوية كبيرة تتوافق مع الصور والفيديوهات.
استخدام الأدوات: إتاحة استخدام وظيفة الاتصال في مهام سير العمل المستندة إلى الذكاء الاصطناعي الوكيل مع فك ترميز محدود لتحسين الدقة.
التوافق مع مجموعة واسعة من النماذج: يمكنك تشغيل Gemma وLlama وPhi-4 وQwen وغيرها.

معرض نماذج الذكاء الاصطناعي التوليدي على الجهاز

لقطة شاشة من معرض Google AI Edge

معرض Google AI Edge هو تطبيق تجريبي مصمّم لعرض إمكانات الذكاء الاصطناعي التوليدي على الجهاز فقط، والتي تعمل بالكامل بلا إنترنت باستخدام LiteRT-LM.

Google Play: يمكنك استخدام نماذج اللغات الكبيرة محليًا على أجهزة Android المتوافقة.
متجر التطبيقات: يمكنك تجربة الذكاء الاصطناعي على جهاز iOS فقط.
مصدر GitHub: يمكنك الاطّلاع على الرمز المصدري لتطبيق المعرض لمعرفة كيفية دمج LiteRT-LM في مشاريعك.

الطراز المميز: Gemma-4-E2B

حجم النموذج: 2.58 غيغابايت

تتوفّر تفاصيل فنية إضافية في بطاقة نموذج HuggingFace.

النظام الأساسي (الجهاز)	الخلفية	الملء المُسبَق (لكل ثانية)	فك الترميز (ألف وحدة/ثانية)	الوقت اللازم لظهور أول رمز مميز (بالثواني)	الحد الأقصى لذاكرة وحدة المعالجة المركزية (ميغابايت)
Android (S26 Ultra)	وحدة معالجة مركزية (CPU)	557	47	1.8	1733
Android (S26 Ultra)	وحدة معالجة الرسومات	3808	52	0.3	676
iOS (iPhone 17 Pro)	وحدة معالجة مركزية (CPU)	532	25	1.9	607
iOS (iPhone 17 Pro)	وحدة معالجة الرسومات	2878	56	0.3	1450
‫Linux (معالج Arm بسرعة 2.3 و2.8 غيغاهرتز، بطاقة رسومات NVIDIA GeForce RTX 4090)	وحدة معالجة مركزية (CPU)	260	35	4	1628
	وحدة معالجة الرسومات	11234	143	0.1	913
‫macOS (MacBook Pro M4)	وحدة معالجة مركزية (CPU)	901	42	1.1	736
‫macOS (MacBook Pro M4)	وحدة معالجة الرسومات	7835	160	0.1	1623
إنترنت الأشياء (Raspberry Pi 5 16GB)	وحدة معالجة مركزية (CPU)	133	8	7.8	1546

بدء التطوير

توضّح المقتطفات التالية كيفية بدء استخدام واجهة سطر الأوامر LiteRT-LM، بالإضافة إلى واجهات برمجة التطبيقات Python وKotlin وC++.

CLI

litert-lm run model.litertlm --prompt="What is the capital of France?"

Python

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

Kotlin

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))

C++‎

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;

اللغة	الحالة	يناسب هذا الخيار...	الوثائق
CLI	🚀 معاينة مبكرة	بدء استخدام LiteRT-LM في أقل من دقيقة واحدة	دليل واجهة سطر الأوامر
Python	‫✅ ثابت	تطوير النماذج الأولية بسرعة على أجهزة الكمبيوتر وRaspberry Pi	دليل Python
Kotlin	‫✅ ثابت	تطبيقات Android الأصلية وأدوات الكمبيوتر المكتبي المستندة إلى JVM محسَّن للاستخدام مع Coroutines	دليل Android (Kotlin)
C++‎	‫✅ ثابت	أنظمة مدمجة ومنطق أساسي عالي الأداء ومتوافق مع عدّة منصات	دليل C++‎
Swift	🚀 قيد التطوير	تتكامل هذه الأداة مع نظامَي التشغيل iOS وmacOS بشكلٍ أصلي، وتوفّر دعمًا متخصصًا لواجهة برمجة التطبيقات Metal.	قريبًا

الأنظمة الخلفية والمنصات المتوافقة

التسارع	Android	iOS	macOS	Windows	Linux	إنترنت الأشياء (IoT)
وحدة المعالجة المركزية	✅	✅	✅	✅	✅	✅
وحدة معالجة الرسومات	✅	✅	✅	✅	✅	-
NPU	✅	-	-	-	-	-

النماذج المتوافقة

يسرد الجدول التالي النماذج المتوافقة مع LiteRT-LM. للاطّلاع على أرقام الأداء وبطاقات النماذج الأكثر تفصيلاً، يُرجى الانتقال إلى منتدى LiteRT على Hugging Face.

الطراز	النوع	الحجم (ميغابايت)	التفاصيل	الجهاز	CPU Prefill (tk/s)	فك ترميز وحدة المعالجة المركزية (إطار في الثانية)	GPU Prefill (الرموز المميزة في الثانية)	فك الترميز باستخدام وحدة معالجة الرسومات (إطارات في الثانية)
Gemma4-E2B	محادثة	2583	بطاقة النموذج	‫Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	محادثة	3654	بطاقة النموذج	‫Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
Gemma-3n-E2B	محادثة	2965	بطاقة النموذج	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
Gemma-3n-E4B	محادثة	4235	بطاقة النموذج	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
Gemma3-1B	محادثة	1005	بطاقة النموذج	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	المجموعة الأساسية	289	بطاقة النموذج	هاتف Samsung S25 Ultra	2238	154	-	-
phi-4-mini	محادثة	3906	بطاقة النموذج	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	محادثة	1598	بطاقة النموذج	هاتف Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	محادثة	586	بطاقة النموذج	Vivo X300 Pro	165	9	580	21
‫Qwen2.5-0.5B	محادثة	521	بطاقة النموذج	Samsung S24 Ultra	251	30	-	-

الإبلاغ عن المشاكل

إذا واجهت خطأً أو كان لديك طلب ميزة، يمكنك الإبلاغ عنه في مشاكل LiteRT-LM على GitHub.