מסגרת הסקת מסקנות בקוד פתוח שמוכנה לשימוש בסביבת ייצור, ומיועדת לפריסות של מודלים גדולים של שפה (LLM) בפלטפורמות שונות במכשירי קצה, עם ביצועים גבוהים.

בדיוק בזמן

שיפור משמעותי של Gemma 4 בהסקת מסקנות במכשיר באמצעות Multi-Token Prediction (MTP). מהירויות פענוח מהירות פי 2 ומעלה במעבדים גרפיים בניידים, ללא פגיעה באיכות.

למה LiteRT-LM?

פריסת מודלים של שפה גדולה ב-Android, ב-iOS, באינטרנט ובמחשב.
שיפור הביצועים באמצעות האצת GPU ו-NPU.
תמיכה במודלים פופולריים של LLM, כמו גם במולטי-מודאליות (ראייה, אודיו) ובשימוש בכלי עזר.

אני רוצה להתחיל לפתח

ממשקי API של Python עם שיפור המהירות באמצעות חומרה ב-Linux, ב-MacOS, ב-Windows וב-Raspberry Pi.
אפליקציות מקוריות ל-Android וכלים למחשב שמבוססים על JVM.
שילוב מקורי של iOS ו-macOS עם תמיכה מיוחדת ב-Metal (ממשקי Swift API יהיו זמינים בקרוב).
‫x-platform C++ APIs .

להצטרפות לקהילה

אפשר לתרום לפרויקט הקוד הפתוח, לדווח על בעיות ולראות דוגמאות.
אתם יכולים להוריד מודלים שעברו המרה מראש (Gemma,‏ Qwen ועוד) ולהצטרף לדיון.

בלוגים והודעות

אפשר לפרוס את Gemma 4 באפליקציה ובמגוון רחב יותר של מכשירים עם ביצועים מעולים ופוטנציאל חשיפה רחב באמצעות LiteRT-LM.
פריסת מודלים של שפה במכשירים לבישים ובפלטפורמות מבוססות-דפדפן באמצעות LiteRT-LM בקנה מידה נרחב.
במאמר הזה מוסבר איך לבצע כוונון עדין של FunctionGemma ואיך להפעיל יכולות של בקשות להפעלת פונקציות שמבוססות על ממשקי API של LiteRT-LM Tool Use.
תובנות עדכניות לגבי RAG, מולטי-מודאליות ובקשות להפעלת פונקציות במודלים של שפה שפועלים במכשירים.