מסגרת הסקת מסקנות בקוד פתוח שמוכנה לשימוש בסביבת ייצור, ומיועדת לפריסות של מודלים גדולים של שפה (LLM) בפלטפורמות שונות במכשירי קצה, עם ביצועים גבוהים.

בדיוק בזמן

בבלוג האחרון שלנו תוכלו לקרוא איך LiteRT-LM משפר את הפריסות של AI גנרטיבי במכשיר, וממצה את הפוטנציאל של Gemma 4 במהירות גבוהה וביעילות מדהימה באמצעות ממשקי API חדשים של Swift,‏ JavaScript ו-Flutter.

למה LiteRT-LM?

פריסת מודלים של שפה גדולה ב-Android, ב-iOS, באינטרנט ובמחשב.
שיפור הביצועים באמצעות האצת GPU ו-NPU.
תמיכה במודלים פופולריים של LLM, כמו גם במולטי-מודאליות (ראייה, אודיו) ובשימוש בכלי עזר.

אני רוצה להתחיל לפתח

ממשקי API של Python עם שיפור המהירות באמצעות חומרה ב-Linux, ב-MacOS, ב-Windows וב-Raspberry Pi.
אפליקציות מקוריות ל-Android וכלים למחשב שמבוססים על JVM.
ממשקי API מקוריים של Swift ל-iOS (בקרוב גם ל-macOS).
ממשקי JavaScript ו-TypeScript API לאפליקציות אינטרנט מבוססות-דפדפן עם האצת WebGPU.
יצירת אפליקציות Flutter חוצות-פלטפורמות באמצעות חבילת flutter_gemma שמתוחזקת על ידי הקהילה.
‫x-platform C++ APIs .
ליצור קובצי ‎ .litertlm ממודלים של LiteRT שהומרו.

להצטרפות לקהילה

אפשר לתרום לפרויקט הקוד הפתוח, לדווח על בעיות ולראות דוגמאות.
אתם יכולים להוריד מודלים שעברו המרה מראש (Gemma,‏ Qwen ועוד) ולהצטרף לדיון.

בלוגים והודעות

מהירויות פענוח מהירות פי 2 ומעלה במעבדים גרפיים בניידים, ללא פגיעה באיכות.
אפשר לפרוס את Gemma 4 באפליקציה ובמגוון רחב יותר של מכשירים עם ביצועים מעולים ופוטנציאל חשיפה רחב באמצעות LiteRT-LM.
פריסת מודלים של שפה במכשירים לבישים ובפלטפורמות מבוססות-דפדפן באמצעות LiteRT-LM בקנה מידה נרחב.
במאמר הזה מוסבר איך לבצע כוונון עדין של FunctionGemma ואיך להפעיל יכולות של בקשות להפעלת פונקציות שמבוססות על ממשקי API של LiteRT-LM Tool Use.
תובנות עדכניות לגבי RAG, מולטי-מודאליות ובקשות להפעלת פונקציות במודלים של שפה שפועלים במכשירים.