סקירה כללית על LiteRT-LM

‫LiteRT-LM הוא מסגרת היקשים בקוד פתוח שמוכנה לשימוש בסביבת ייצור. היא נועדה לספק פריסות של מודלים מסוג LLM בפלטפורמות שונות במכשירי קצה עם ביצועים גבוהים.

  • תמיכה בפלטפורמות שונות: אפשר להפעיל את התכונה ב-Android, ב-iOS, באינטרנט, במחשב וב-IoT (לדוגמה, Raspberry Pi).
  • שיפור מהירות באמצעות חומרה: כדי להשיג ביצועים אופטימליים ויציבות מערכת, אפשר להשתמש במאיצי GPU ו-NPU במגוון רחב של חומרה.
  • מולטי-מודאליות: פיתוח באמצעות מודלים גדולים של שפה (LLM) עם תמיכה בראייה ובאודיו.
  • שימוש בכלים: תמיכה בהפעלת פונקציות בתהליכי עבודה של סוכנים עם פענוח מוגבל לשיפור הדיוק.
  • תמיכה במגוון רחב של מודלים: הפעלת Gemma, ‏ Llama, ‏ Phi-4, ‏ Qwen ועוד.

מה חדש (v0.12.0)

  • Swift APIs: שילוב מקורי של LiteRT-LM באפליקציות ל-iOS עם האצת Metal GPU. אפשר לעיין במדריך Swift.
  • Web JavaScript APIs: הפעלת מודלים בדפדפני אינטרנט עם ביצועים גבוהים באמצעות GPU/CPU באינטרנט. מדריך JavaScript
  • עדכון של LiteRT-LM CLI / API בשפת Python: ממשק שורת הפקודה ו-API בשפת Python תומכים עכשיו ב-NPU, בנוסף ל-CPU ול-GPU backends ב-Linux, ב-macOS וב-Windows. מידע נוסף זמין במדריך בנושא CLI.
  • Flutter APIs בתחזוקת הקהילה: אפשר ליצור אפליקציות בפלטפורמות שונות ב-Flutter באמצעות חבילת flutter_gemma של הקהילה. מדריך Flutter

תצוגת יכולות של AI גנרטיבי במכשיר

צילום מסך של גלריית Google AI Edge

גלריית Google AI Edge API היא אפליקציה ניסיונית שנועדה להציג יכולות מבוססות-AI גנרטיבי במכשיר, שפועלות באופן מלא אופליין באמצעות LiteRT-LM.

  • Google Play: שימוש ב-LLM באופן מקומי במכשירי Android נתמכים.
  • App Store: התנסות ב-AI במכשיר iOS.
  • מקור ב-GitHub: אפשר לראות את קוד המקור של אפליקציית הגלריה כדי ללמוד איך לשלב את LiteRT-LM בפרויקטים שלכם.
  • גודל המודל: 2.58GB
  • פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.

    פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לטוקן הראשון (בשניות) זיכרון CPU בשיא (MB)
    ‫Android (S26 Ultra) מעבד (CPU) 557 47 1.8 1733
    GPU 3808 52 0.3 676
    ‫iOS (אייפון 17 פרו) מעבד (CPU) 532 25 1.9 607
    GPU 2878 56 0.3 1450
    ‫Linux (Arm 2.3 & 2.8 GHz, ‏ NVIDIA GeForce RTX 4090) מעבד (CPU) 260 35 4 1628
    GPU 11234 143 0.1 913
    macOS (MacBook Pro M4) מעבד (CPU) 901 42 1.1 736
    GPU 7835 160 0.1 1623
    ‫Windows (Intel LunarLake) מעבד (CPU) 435 30 2.4 3505
    GPU 3751 48 0.3 3540
    IoT (Raspberry Pi 5 16GB) מעבד (CPU) 133 8 7.8 1546

אני רוצה להתחיל לפתח

‫LiteRT-LM מספק ממשקי API לכמה שפות תכנות ופלטפורמות כדי לעזור לכם לבנות במהירות אפליקציות AI במכשיר. כדי להתחיל, בוחרים מדריך מהרשימה הבאה:

שפה סטטוס הכי מתאים ל... מאמרי עזרה
CLI ‫✅
Stable
איך מתחילים להשתמש ב-LiteRT-LM תוך פחות מדקה CLI Guide
Python ‫✅
Stable
אב טיפוס מהיר, פיתוח, במחשב וב-Raspberry Pi. Python Guide
Kotlin ‫✅
Stable
אפליקציות מקוריות ל-Android וכלי מחשב שמבוססים על JVM. מותאם לקורוטינות. Kotlin Guide
Swift 🚀
גרסת טרום-השקה מוקדמת
שילוב מובנה ב-iOS וב-macOS עם תמיכה מיוחדת ב-Metal. מדריך ל-Swift
JavaScript (אינטרנט) 🚀
גרסת טרום-השקה מוקדמת
פריסת מודלים ישירות בדפדפני אינטרנט עם ביצועים גבוהים. מדריך בנושא JavaScript
Flutter 🚀
קהילה
אפליקציות Flutter בפלטפורמות שונות באמצעות flutter_gemma. מדריך Flutter
C++‎ ‫✅
Stable
ביצועים גבוהים, לוגיקה מרכזית חוצת פלטפורמות ומערכות מוטמעות. C++ Guide

בנייה ממקור

אם רוצים להתאים אישית את LiteRT-LM או ליצור אותו עבור תצורת חומרה ספציפית, אפשר לקמפל אותו ישירות מקוד המקור. הוראות מפורטות להגדרת הסביבה ולבניית המסגרת מופיעות במדריך לבנייה ולהרצה של LiteRT-LM ב-GitHub.

פלטפורמות ושרתי קצה נתמכים

האצה Android iOS macOS Windows Linux IoT
CPU
GPU -
NPU - - 🚀 - -

מודלים נתמכים

בטבלה הבאה מפורטים הדגמים שנתמכים על ידי LiteRT-LM. למספרים מפורטים יותר של ביצועים ולכרטיסי מודל, אפשר להיכנס לקהילת LiteRT ב-Hugging Face.

מודל סוג גודל (MB) פרטים מכשיר CPU Prefill (tk/s) פענוח קוד של יחידת עיבוד מרכזית (CPU) (tk/s) מילוי מראש של GPU (אסימונים לשנייה) פענוח GPU (tk/s)
Gemma4-E2B צ'אט 2583 כרטיס מודל Samsung S26 Ultra 557 47 3808 52
iPhone 17 Pro 532 25 2878 57
MacBook Pro M4 901 42 7835 160
Gemma4-E4B צ'אט 3654 כרטיס מודל Samsung S26 Ultra 195 18 1293 22
iPhone 17 Pro 159 10 1189 25
MacBook Pro M4 277 27 2560 101
Gemma-3n-E2B צ'אט 2965 כרטיס מודל MacBook Pro M3 233 28 - -
Samsung S24 Ultra 111 16 816 16
Gemma-3n-E4B צ'אט 4235 כרטיס מודל MacBook Pro M3 170 20 - -
Samsung S24 Ultra 74 9 548 9
Gemma3-1B צ'אט 1005 כרטיס מודל Samsung S24 Ultra 177 33 1191 24
FunctionGemma בסיס 289 כרטיס מודל Samsung S25 Ultra 2238 154 - -
phi-4-mini צ'אט 3906 כרטיס מודל Samsung S24 Ultra 67 7 314 10
Qwen2.5-1.5B צ'אט 1598 כרטיס מודל Samsung S25 Ultra 298 34 1668 31
Qwen3-0.6B צ'אט 586 כרטיס מודל Vivo X300 Pro 165 9 580 21
Qwen2.5-0.5B צ'אט 521 כרטיס מודל Samsung S24 Ultra 251 30 - -

דיווח על בעיות

אם נתקלתם בבאג או שיש לכם הגשת בקשה להוספת תכונה, אתם יכולים לדווח על כך ב-LiteRT-LM GitHub Issues.