אנחנו גאים להציג את Google AI Edge Portal: כלי למדידת ביצועים של AI לקצה (Edge AI) בקנה מידה נרחב. להירשם כדי לבקש גישה במהלך התצוגה המקדימה הפרטית.

סקירה כללית על LiteRT-LM

‫LiteRT-LM הוא מסגרת קוד פתוח להסקת מסקנות שמוכנה לייצור, ומיועדת לפריסות של מודלים מסוג LLM בפלטפורמות שונות במכשירי קצה עם ביצועים גבוהים.

תמיכה בפלטפורמות שונות: אפשר להפעיל את התכונה ב-Android, ב-iOS, באינטרנט, במחשב וב-IoT (לדוגמה, Raspberry Pi).
האצת חומרה: כדי להשיג ביצועים אופטימליים ויציבות מערכת, אפשר להשתמש במאיצי GPU ו-NPU בחומרה מגוונת.
מולטי-מודאליות: פיתוח באמצעות מודלים גדולים של שפה (LLM) עם תמיכה בראייה ובאודיו.
שימוש בכלים: תמיכה בהפעלת פונקציות בתהליכי עבודה של סוכנים עם פענוח מוגבל לשיפור הדיוק.
תמיכה במגוון רחב של מודלים: הפעלת Gemma, ‏ Llama, ‏ Phi-4, ‏ Qwen ועוד.

הדגמה של AI גנרטיבי במכשיר

צילום מסך של גלריית Google AI Edge

גלריית Google AI Edge היא אפליקציה ניסיונית שנועדה להציג יכולות מבוססות-AI גנרטיבי במכשיר, שפועלות באופן מלא אופליין באמצעות LiteRT-LM.

‫Google Play: שימוש ב-LLM באופן מקומי במכשירי Android נתמכים.
‫App Store: תוכלו ליהנות מ-AI במכשיר במכשיר iOS.
מקור ב-GitHub: אפשר לראות את קוד המקור של אפליקציית הגלריה כדי ללמוד איך לשלב את LiteRT-LM בפרויקטים שלכם.

הדגם המומלץ: Gemma-4-E2B

גודל המודל: 2.58GB

פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace

פלטפורמה (מכשיר)	בק-אנד	מילוי מראש (tk/s)	פענוח (tk/s)	הזמן עד לטוקן הראשון (בשניות)	זיכרון CPU בשיא (MB)
‫Android (S26 Ultra)	מעבד (CPU)	557	47	1.8	1733
‫Android (S26 Ultra)	GPU	3808	52	0.3	676
‫iOS (אייפון 17 פרו)	מעבד (CPU)	532	25	1.9	607
‫iOS (אייפון 17 פרו)	GPU	2878	56	0.3	1450
‫Linux (Arm 2.3 & 2.8 GHz, NVIDIA GeForce RTX 4090)	מעבד (CPU)	260	35	4	1628
‫Linux (Arm 2.3 & 2.8 GHz, NVIDIA GeForce RTX 4090)	GPU	11234	143	0.1	913
macOS (MacBook Pro M4)	מעבד (CPU)	901	42	1.1	736
macOS (MacBook Pro M4)	GPU	7835	160	0.1	1623
IoT (Raspberry Pi 5 16GB)	מעבד (CPU)	133	8	7.8	1546

אני רוצה להתחיל לפתח

בקטעי הקוד הבאים אפשר לראות איך להתחיל להשתמש ב-CLI של LiteRT-LM, וגם בממשקי API של Python,‏ Kotlin ו-C++.

CLI

litert-lm run model.litertlm --prompt="What is the capital of France?"

Python

engine = litert_lm.Engine("model.litertlm")

with engine.create_conversation() as conversation:
    response = conversation.send_message("What is the capital of France?")
    print(f"Response: {response['content'][0]['text']}")

Kotlin

val engineConfig = EngineConfig(
    modelPath = "/path/to/your/model.litertlm",
    backend = Backend.CPU(),
)

val engine = Engine(engineConfig)
engine.initialize()

val conversation = engine.createConversation()
print(conversation.sendMessage("What is the capital of France?"))

C++‎

auto model_assets = ModelAssets::Create(model_path);
CHECK_OK(model_assets);

auto engine_settings = EngineSettings::CreateDefault(
    model_assets,
    /*backend=*/litert::lm::Backend::CPU);

absl::StatusOr<std::unique_ptr<Engine>> engine = Engine::CreateEngine(engine_settings);
CHECK_OK(engine);

auto conversation_config = ConversationConfig::CreateDefault(**engine);
CHECK_OK(conversation_config);
absl::StatusOr<std::unique_ptr<Conversation>> conversation = Conversation::Create(**engine, *conversation_config);
CHECK_OK(conversation);

absl::StatusOr<Message> model_message = (*conversation)->SendMessage(
    JsonMessage{
        {"role", "user"},
        {"content", "What is the capital of France?"}
    });
CHECK_OK(model_message);

std::cout << *model_message << std::endl;

שפה	סטטוס	הכי מתאים ל...	מאמרי עזרה
CLI	🚀 גרסת טרום-השקה מוקדמת	התחלת העבודה עם LiteRT-LM תוך פחות מדקה.	מדריך ל-CLI
Python	‫✅ Stable	יצירת אבות טיפוס ופיתוח מהירים במחשב וב-Raspberry Pi.	מדריך Python
‫Kotlin	‫✅ Stable	אפליקציות מקוריות ל-Android וכלים למחשב שמבוססים על JVM. אופטימיזציה ל-Coroutines.	מדריך Android (Kotlin)
C++‎	‫✅ Stable	לוגיקת ליבה ומערכות מוטמעות בפלטפורמות שונות עם ביצועים גבוהים.	מדריך ל-C++‎
Swift	🚀 בפיתוח	שילוב מקומי של iOS ו-macOS עם תמיכה מיוחדת ב-Metal.	בקרוב

פלטפורמות ושרתי קצה נתמכים

האצה	Android	iOS	macOS	Windows	Linux	IoT
CPU	✅	✅	✅	✅	✅	✅
GPU	✅	✅	✅	✅	✅	-
NPU	✅	-	-	-	-	-

מודלים נתמכים

בטבלה הבאה מפורטים הדגמים שנתמכים על ידי LiteRT-LM. לנתוני ביצועים מפורטים יותר ולכרטיסי מודל, אפשר להיכנס לקהילת LiteRT ב-Hugging Face.

דגם	סוג	גודל (MB)	פרטים	מכשיר	מילוי מראש של נתוני CPU‏ (tk/s)	פענוח קוד של יחידת עיבוד מרכזית (CPU) (tk/s)	מילוי מראש של GPU (אסימונים לשנייה)	פענוח GPU (tk/s)
‫Gemma4-E2B	צ'אט	2583	כרטיס מודל	Samsung S26 Ultra	557	47	3808	52
				iPhone 17 Pro	532	25	2878	57
				MacBook Pro M4	901	42	7835	160
Gemma4-E4B	צ'אט	3654	כרטיס מודל	Samsung S26 Ultra	195	18	1293	22
				iPhone 17 Pro	159	10	1189	25
				MacBook Pro M4	277	27	2560	101
‫Gemma-3n-E2B	צ'אט	2965	כרטיס מודל	MacBook Pro M3	233	28	-	-
				Samsung S24 Ultra	111	16	816	16
‫Gemma-3n-E4B	צ'אט	4235	כרטיס מודל	MacBook Pro M3	170	20	-	-
				Samsung S24 Ultra	74	9	548	9
‫Gemma3-1B	צ'אט	1005	כרטיס מודל	Samsung S24 Ultra	177	33	1191	24
FunctionGemma	בסיס	289	כרטיס מודל	Samsung S25 Ultra	2238	154	-	-
‫phi-4-mini	צ'אט	3906	כרטיס מודל	Samsung S24 Ultra	67	7	314	10
Qwen2.5-1.5B	צ'אט	1598	כרטיס מודל	Samsung S25 Ultra	298	34	1668	31
Qwen3-0.6B	צ'אט	586	כרטיס מודל	Vivo X300 Pro	165	9	580	21
Qwen2.5-0.5B	צ'אט	521	כרטיס מודל	Samsung S24 Ultra	251	30	-	-

בעיות בדיווח

אם נתקלתם בבאג או שיש לכם הגשת בקשה להוספת תכונה, אתם יכולים לדווח על כך ב-LiteRT-LM GitHub Issues.