LiteRT מספק פריסה של מודלים של AI גנרטיבי בנייד, במחשב ובפלטפורמות אינטרנט, עם ביצועים גבוהים. LiteRT משתמשת בצורה חלקה בשיפור המהירות באמצעות חומרה ממעבדים מרכזיים, מעבדים גרפיים ומעבדים עצביים, ומספקת ביצועים מתקדמים להסקת מסקנות של AI גנרטיבי במכשיר.
אפשר לפרוס מודלים מורכבים של AI גנרטיבי באמצעות חבילת הטכנולוגיות המשולבת הבאה:
Torch Generative API: מודול Python בספריית AI Edge Torch ליצירה ולהמרה של מודלים של PyTorch GenAI. היא מספקת אבני בניין שעברו אופטימיזציה כדי להבטיח ביצועים גבוהים במכשירים. לפרטים נוספים, אפשר לעיין במאמר בנושא המרת מודלים של AI גנרטיבי ב-PyTorch.
LiteRT-LM: שכבת תזמור מיוחדת שמבוססת על LiteRT כדי לנהל מורכבויות ספציפיות ל-LLM, כמו שיבוט סשנים, ניהול מטמון kv, שמירת הנחיות במטמון/דירוג, הסקה עם שמירת מצב. פרטים נוספים זמינים במאגר LiteRT-LM ב-GitHub.
LiteRT Converter ו-Runtime: מנוע בסיסי שמספק המרה יעילה של מודלים, הרצה ואופטימיזציה, ומאפשר האצת חומרה מתקדמת ב-CPU, ב-GPU וב-NPU.
מאגר מודלים של AI גנרטיבי ב-LiteRT
LiteRT תומך באוסף הולך וגדל של מודלים פופולריים עם משקלים פתוחים ב-LiteRT Hugging Face Community. המודלים האלה מומרים מראש ומותאמים לפריסה מיידית, כך שתוכלו להפיק מהם את הביצועים הכי טובים במעבדי CPU, GPU ו-NPU כבר מההתחלה.
- Gemma Family
- Gemma 3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- הפונקציה Gemma 270M
- Qwen Family
- Llama
- Phi
- SmoLM
- FastVLM
תובנות מומלצות
- MediaTek NPU and LiteRT: Powering the next generation of on-device AI
- שיפור הביצועים של Qualcomm NPU באמצעות LiteRT
- GenAI במכשיר ב-Chrome, ב-Chromebook Plus וב-Pixel Watch עם LiteRT-LM
- מודלים קטנים של שפה במכשיר עם יכולות מולטימודליות, RAG וקריאה לפונקציות
- Gemma 3 בנייד ובאינטרנט עם Google AI Edge