LiteRT-LM הוא מסגרת היקשים בקוד פתוח שמוכנה לשימוש בסביבת ייצור. היא נועדה לספק פריסות של מודלים מסוג LLM בפלטפורמות שונות במכשירי קצה עם ביצועים גבוהים.
- תמיכה בפלטפורמות שונות: אפשר להפעיל את התכונה ב-Android, ב-iOS, באינטרנט, במחשב וב-IoT (לדוגמה, Raspberry Pi).
- שיפור מהירות באמצעות חומרה: כדי להשיג ביצועים אופטימליים ויציבות מערכת, אפשר להשתמש במאיצי GPU ו-NPU במגוון רחב של חומרה.
- מולטי-מודאליות: פיתוח באמצעות מודלים גדולים של שפה (LLM) עם תמיכה בראייה ובאודיו.
- שימוש בכלים: תמיכה בהפעלת פונקציות בתהליכי עבודה של סוכנים עם פענוח מוגבל לשיפור הדיוק.
- תמיכה במגוון רחב של מודלים: הפעלת Gemma, Llama, Phi-4, Qwen ועוד.
מה חדש (v0.12.0)
- Swift APIs: שילוב מקורי של LiteRT-LM באפליקציות ל-iOS עם האצת Metal GPU. אפשר לעיין במדריך Swift.
- Web JavaScript APIs: הפעלת מודלים בדפדפני אינטרנט עם ביצועים גבוהים באמצעות GPU/CPU באינטרנט. מדריך JavaScript
- עדכון של LiteRT-LM CLI / API בשפת Python: ממשק שורת הפקודה ו-API בשפת Python תומכים עכשיו ב-NPU, בנוסף ל-CPU ול-GPU backends ב-Linux, ב-macOS וב-Windows. מידע נוסף זמין במדריך בנושא CLI.
- Flutter APIs בתחזוקת הקהילה: אפשר ליצור אפליקציות בפלטפורמות שונות ב-Flutter באמצעות חבילת flutter_gemma של הקהילה. מדריך Flutter
תצוגת יכולות של AI גנרטיבי במכשיר
גלריית Google AI Edge API היא אפליקציה ניסיונית שנועדה להציג יכולות מבוססות-AI גנרטיבי במכשיר, שפועלות באופן מלא אופליין באמצעות LiteRT-LM.
- Google Play: שימוש ב-LLM באופן מקומי במכשירי Android נתמכים.
- App Store: התנסות ב-AI במכשיר iOS.
- מקור ב-GitHub: אפשר לראות את קוד המקור של אפליקציית הגלריה כדי ללמוד איך לשלב את LiteRT-LM בפרויקטים שלכם.
הדגם המומלץ: Gemma-4-E2B
- גודל המודל: 2.58GB
פרטים טכניים נוספים זמינים בכרטיס המודל של HuggingFace.
פלטפורמה (מכשיר) בק-אנד מילוי מראש (tk/s) פענוח (tk/s) הזמן עד לטוקן הראשון (בשניות) זיכרון CPU בשיא (MB) Android (S26 Ultra) מעבד (CPU) 557 47 1.8 1733 GPU 3808 52 0.3 676 iOS (אייפון 17 פרו) מעבד (CPU) 532 25 1.9 607 GPU 2878 56 0.3 1450 Linux (Arm 2.3 & 2.8 GHz, NVIDIA GeForce RTX 4090) מעבד (CPU) 260 35 4 1628 GPU 11234 143 0.1 913 macOS (MacBook Pro M4) מעבד (CPU) 901 42 1.1 736 GPU 7835 160 0.1 1623 Windows (Intel LunarLake) מעבד (CPU) 435 30 2.4 3505 GPU 3751 48 0.3 3540 IoT (Raspberry Pi 5 16GB) מעבד (CPU) 133 8 7.8 1546
אני רוצה להתחיל לפתח
LiteRT-LM מספק ממשקי API לכמה שפות תכנות ופלטפורמות כדי לעזור לכם לבנות במהירות אפליקציות AI במכשיר. כדי להתחיל, בוחרים מדריך מהרשימה הבאה:
| שפה | סטטוס | הכי מתאים ל... | מאמרי עזרה |
|---|---|---|---|
| CLI | ✅ Stable |
איך מתחילים להשתמש ב-LiteRT-LM תוך פחות מדקה | CLI Guide |
| Python | ✅ Stable |
אב טיפוס מהיר, פיתוח, במחשב וב-Raspberry Pi. | Python Guide |
| Kotlin | ✅ Stable |
אפליקציות מקוריות ל-Android וכלי מחשב שמבוססים על JVM. מותאם לקורוטינות. | Kotlin Guide |
| Swift | 🚀 גרסת טרום-השקה מוקדמת |
שילוב מובנה ב-iOS וב-macOS עם תמיכה מיוחדת ב-Metal. | מדריך ל-Swift |
| JavaScript (אינטרנט) | 🚀 גרסת טרום-השקה מוקדמת |
פריסת מודלים ישירות בדפדפני אינטרנט עם ביצועים גבוהים. | מדריך בנושא JavaScript |
| Flutter | 🚀 קהילה |
אפליקציות Flutter בפלטפורמות שונות באמצעות flutter_gemma. |
מדריך Flutter |
| C++ | ✅ Stable |
ביצועים גבוהים, לוגיקה מרכזית חוצת פלטפורמות ומערכות מוטמעות. | C++ Guide |
בנייה ממקור
אם רוצים להתאים אישית את LiteRT-LM או ליצור אותו עבור תצורת חומרה ספציפית, אפשר לקמפל אותו ישירות מקוד המקור. הוראות מפורטות להגדרת הסביבה ולבניית המסגרת מופיעות במדריך לבנייה ולהרצה של LiteRT-LM ב-GitHub.
פלטפורמות ושרתי קצה נתמכים
| האצה | Android | iOS | macOS | Windows | Linux | IoT |
|---|---|---|---|---|---|---|
| CPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| GPU | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| NPU | ✅ | - | - | 🚀 | - | - |
מודלים נתמכים
בטבלה הבאה מפורטים הדגמים שנתמכים על ידי LiteRT-LM. למספרים מפורטים יותר של ביצועים ולכרטיסי מודל, אפשר להיכנס לקהילת LiteRT ב-Hugging Face.
| מודל | סוג | גודל (MB) | פרטים | מכשיר | CPU Prefill (tk/s) | פענוח קוד של יחידת עיבוד מרכזית (CPU) (tk/s) | מילוי מראש של GPU (אסימונים לשנייה) | פענוח GPU (tk/s) |
|---|---|---|---|---|---|---|---|---|
| Gemma4-E2B | צ'אט | 2583 | כרטיס מודל | Samsung S26 Ultra | 557 | 47 | 3808 | 52 |
| iPhone 17 Pro | 532 | 25 | 2878 | 57 | ||||
| MacBook Pro M4 | 901 | 42 | 7835 | 160 | ||||
| Gemma4-E4B | צ'אט | 3654 | כרטיס מודל | Samsung S26 Ultra | 195 | 18 | 1293 | 22 |
| iPhone 17 Pro | 159 | 10 | 1189 | 25 | ||||
| MacBook Pro M4 | 277 | 27 | 2560 | 101 | ||||
| Gemma-3n-E2B | צ'אט | 2965 | כרטיס מודל | MacBook Pro M3 | 233 | 28 | - | - |
| Samsung S24 Ultra | 111 | 16 | 816 | 16 | ||||
| Gemma-3n-E4B | צ'אט | 4235 | כרטיס מודל | MacBook Pro M3 | 170 | 20 | - | - |
| Samsung S24 Ultra | 74 | 9 | 548 | 9 | ||||
| Gemma3-1B | צ'אט | 1005 | כרטיס מודל | Samsung S24 Ultra | 177 | 33 | 1191 | 24 |
| FunctionGemma | בסיס | 289 | כרטיס מודל | Samsung S25 Ultra | 2238 | 154 | - | - |
| phi-4-mini | צ'אט | 3906 | כרטיס מודל | Samsung S24 Ultra | 67 | 7 | 314 | 10 |
| Qwen2.5-1.5B | צ'אט | 1598 | כרטיס מודל | Samsung S25 Ultra | 298 | 34 | 1668 | 31 |
| Qwen3-0.6B | צ'אט | 586 | כרטיס מודל | Vivo X300 Pro | 165 | 9 | 580 | 21 |
| Qwen2.5-0.5B | צ'אט | 521 | כרטיס מודל | Samsung S24 Ultra | 251 | 30 | - | - |
דיווח על בעיות
אם נתקלתם בבאג או שיש לכם הגשת בקשה להוספת תכונה, אתם יכולים לדווח על כך ב-LiteRT-LM GitHub Issues.