אנחנו גאים להציג את Google AI Edge Portal: כלי למדידת ביצועים של AI לקצה (Edge AI) בקנה מידה נרחב. להירשם כדי לבקש גישה במהלך התצוגה המקדימה הפרטית.

הסקת מסקנות במכשיר באמצעות LiteRT

‫LiteRT CompiledModel API מייצג את התקן המודרני להסקת מסקנות של ML במכשיר, ומציע האצת חומרה יעילה שמשפרת משמעותית את הביצועים של Interpreter API. הממשק הזה מפשט את הפריסה של מודלים של .tflite במגוון רחב של פלטפורמות קצה, כי הוא מספק חוויית פיתוח אחידה ותכונות מתקדמות שנועדו למקסם את יעילות החומרה.

למה כדאי לבחור ב-`CompiledModel` API?

‫Interpreter API עדיין זמין לצורך תאימות לדורות קודמים, אבל ב-CompiledModel API אנחנו מתמקדים בתכונות חדשות לשיפור הביצועים ולהאצת התהליכים. מומלץ להשתמש בשיטה הזו מהסיבות הבאות:

האצת GPU מהטובות ביותר בתחום: שימוש ב-ML Drift, ספריית האצת ה-GPU המתקדמת ביותר, כדי לספק הסקת מסקנות אמינה של GPU במכשירים ניידים, באינטרנט, במחשבים ובמכשירי IoT. האצת GPU באמצעות LiteRT
גישה מאוחדת ל-NPU: מספקת חוויית פיתוח עקבית ופשוטה לגישה ל-NPU מספקים שונים כמו Google Tensor,‏ Qualcomm ו-MediaTek, ומפשטת את המורכבות של קומפיילרים וזמני ריצה ספציפיים לספקים. מידע נוסף על האצת NPU באמצעות LiteRT
בחירת חומרה אוטומטית: המערכת בוחרת באופן אוטומטי את העורף האופטימלי מבין CPU,‏ GPU ו-NPU, על סמך החומרה הזמינה והלוגיקה הפנימית של העדיפות, כך שלא צריך להגדיר את ההרשאות באופן ידני.
ביצוע אסינכרוני: שימוש במנגנונים ברמת מערכת ההפעלה (כמו גדרות סנכרון) כדי לאפשר למאיצי חומרה להפעיל את עצמם ישירות עם השלמת המשימות הקודמות, בלי לערב את המעבד. הפעולה הזו יכולה להפחית את זמן האחזור עד פי 2, ומבטיחה חוויית AI חלקה ואינטראקטיבית יותר.
ניהול יעיל של מאגר זמני לקלט/פלט: שימוש ב-TensorBuffer API כדי לנהל זרימת נתונים עם ביצועים גבוהים בין מאיצים. התכונה הזו כוללת אינטראופרביליות של מאגרים ללא העתקה ב-AHardwareBuffer, OpenCL ו-OpenGL, וכך מבטלת העתקות נתונים יקרות בין שלבי העיבוד המקדים, ההסקה והעיבוד שלאחר מכן.

תחילת העבודה עם `CompiledModel` API

למודלים קלאסיים של ML, אפשר לעיין באפליקציות ההדגמה הבאות.
- אפליקציית Kotlin לפילוח תמונות: הסקת מסקנות ב-CPU/GPU/NPU.
- אפליקציית C++ לפילוח תמונות: הסקת מסקנות במעבד, במעבד גרפי או במעבד עצבי עם ביצוע אסינכרוני.
למודלים של AI גנרטיבי, אפשר לעיין באפליקציות ההדגמה הבאות:
- ‫EmbeddingGemma semantic similarity C++ App: הסקת מסקנות ב-CPU/GPU/NPU.

פלטפורמות נתמכות

‫LiteRT CompiledModel API תומך בהסקת מסקנות בביצועים גבוהים במכשירי Android,‏ iOS, באינטרנט, ב-IoT ובמחשבים. מדריך ספציפי לפלטפורמה

הסקת מסקנות במכשיר באמצעות LiteRT

למה כדאי לבחור ב-CompiledModel API?

תחילת העבודה עם CompiledModel API

פלטפורמות נתמכות

למה כדאי לבחור ב-`CompiledModel` API?

תחילת העבודה עם `CompiledModel` API