חברת Nexa AI יצרה את מודל ה-AI הגנרטיבי OmniAudio לאפליקציות קצה באמצעות Gemma.
Nexa AI היא חברה שמתמחה בפיתוח כלים מבוססי-AI לשוק החומרה והתוכנה לקצה. כדי לעמוד במשימה שלה להנגיש את ה-AI לכולם ובכל מכשיר, החברה מציעה 'מודלים זעירים' מוכנים לייצור, אופטימיזציה ודחיסה של ארכיטקטורת מודל ושירותי האצה של הסקת מסקנות בקצה.
מפתחי Nexa AI השתמשו ב-Gemma כבסיס לאחד מהפתרונות החדשניים של החברה בתחום ה-AI: OmniAudio, מודל שפה-אודיו. היתרון של OmniAudio הוא הארכיטקטורה הייחודית שלו שממקסמת את הביצועים של אפליקציות קצה. בזכות Gemma, המודל הושק בגודל קומפקטי עם זמן אחזור קצר, דיוק גבוה ופרטיות משופרת.
האתגר
ב-Nexa AI רצו ליצור מודל שפה אודיו חדש שיתווסף למלאי הכלים שלהם ל-AI. בניגוד למודלים מסורתיים יותר של שפה אודיו, הם רצו ליצור מודל שיפעל במלואו במכשיר כדי לשפר את הנגישות. בנוסף, העובדה שלא השתמשו במודל מבוסס-ענן צמצמה את החששות לגבי פרטיות ואת זמן האחזור של משתמש הקצה, וגם צמצמה את העלויות של המפתחים.
אחרי בדיקה מקיפה, המפתחים של Nexa AI גילו שהמודלים המסחריים הזמינים מתאימים פחות לפריסה במכשיר, והם נאלצו למצוא מודל קטן ויעיל יותר שיכול לפעול במכשיר עם הביצועים הכי טובים בקטגוריה. בשלב הזה הצוות פנה למודלים הפתוחים של Gemma של Google. מפתחי Nexa AI עבדו בעבר עם Gemma כדי ליצור את המודל המוערך שלה, Octopus v2 – מודל שפה גדול (LLM) גנרטיבי שנוצר גם לאפליקציות קצה. על סמך הידע הזה, הם ידעו שזה יהיה הפתרון המושלם ליצירת מודל השפה של OmniAudio.
"Gemma משנה את כללי המשחק בפיתוח AI לקצה (edge), ומציעה יעילות ודיוק ללא תחרות ליצירת מודלים חזקים וחסכוניים במשאבים. בנוסף, היכולת להתאים את הפתרון לצרכים השונים וקלות השילוב שלו הופכים אותו לאידיאלי לניסויים ולהטמעה הדרגתית".
הפתרון
OmniAudio הוא מודל רב-מודלי של שפה ואודיו עם 2.6 מיליארד פרמטרים, שמשלב את Gemma-2-2b, מודל זיהוי הדיבור האוטומטי WhisperTurbo ומודול פרויקטור בהתאמה אישית, כדי לאחד את יכולות זיהוי הדיבור וה-LLM בארכיטקטורה אחת. המודל הזה יכול להקליט סיכומים, ליצור תוכן אודיו, לבצע בקרת איכות של קול ועוד. השימוש ב-Gemma 2 כבסיס איפשר לצוות Nexa AI לעמוד בעדיפויות של הפרטיות והביצועים, הודות ליכולות השונות של המודל להסקה במכשיר.
"יכולות ההבנה החזקות של Gemma בשפה ויכולות היצירה של תוכן אפשרו לנו לשפר את המודל בקלות כדי להוסיף לו יכולות של שפה אודיו", אמר זכק לי (Zack Li), סמנכ"ל טכנולוגיות ראשי ב-Nexa AI. בנוסף לשימוש באסימונים פונקציונליים כדי לשפר את הקריאה לפונקציות ב-OmniAudio, מפתחי Nexa AI שילבו גם את Gemma 2 עם WhisperTurbo לעיבוד חלק של אודיו לטקסט. הצוות השתמש ב-Nexa SDK, מנוע ההסקה של Nexa AI לקצה, כדי לבצע הסקה של מודל OmniAudio.
לדברי הצוות, העיצוב היעיל של Gemma מפחית באופן משמעותי את העלות לכל הסקת מסקנה. היכולות במכשיר מאפשרות גם לצמצם את צריכת האנרגיה ולחסוך את הצורך בחיבור קבוע לענן, ומספקות פתרונות שניתן להתאים לעומס וחסכוניים לתרחישים לדוגמה של מודלים מרובים. כל זה, בשילוב עם הארכיטקטורה הקומפקטית של Gemma, סייע ל-Nexa AI לפתח את OmniAudio, שמציע מהירות הסקת מסקנות מרשימה עם זמן אחזור מינימלי.

ההשפעה
בעזרת הארכיטקטורה שהותאמה מראש של Gemma, המהנדסים השיגו שיפור משמעותי בביצועים תוך שמירה על יעילות כדי לאפשר "פיתוח חלק", אמר זייק. "המודל של Gemma2 קל משקל ומשך אליו קהילה גדולה של מפתחים, מה שמעודד אותנו להשתמש ב-Gemma כעמוד השדרה של LLM", אמר אלכס. הצוות ציין גם את המסמכים המעולים של Gemma, שעזרו להם מאוד במהלך הפיתוח.
פי 5.5-10.3
ביצועים מהירים יותר בחומרה של צרכנים
31,000 ומעלה
הורדות ב-Hugging Face**
- *בגרסאות GGUF של FP16 ו-GGUF בקידוד Q4_K_M
- **מספר ההורדות מ-1 בדצמבר עד 31 בדצמבר 2024
מה השלב הבא?
לדברי צוות Nexa AI, Gemma עוזרת להפוך את ה-AI לנגיש במכשירים שבהם זמן האחזור, הפרטיות ויעילות האנרגיה הם החשובים ביותר. "מודלים שמבוססים על Gemma שומרים על רמת דיוק יוצאת דופן במשימות ספציפיות בתוך הדומיין, ועדיין קטנים מספיק לפריסה בקצה", אמר זייק. הצוות שמח לראות שמפתחים נוספים מצטרפים למסע שלנו ליצירת פתרונות משמעותיים ובר קיימא.
צוות Nexa AI מתכנן להמשיך לשפר את OmniAudio כדי לשפר את הדיוק ולצמצם את זמן האחזור במכשירי הקצה. בנוסף, הם רוצים להרחיב את השימוש בכל המודלים של Gemma באפליקציות AI במכשיר, כמו סוכני שיחה, עיבוד מולטי-מודלי וקריאה לפונקציות, כדי לשנות את האופן שבו המשתמשים מקיימים אינטראקציה עם המכשירים שלהם. בהמשך, הצוות מתכנן להשתמש ב-Gemma כדי ליצור מודלים משופרים של AI שמבוססים על מגוון מידע ותובנות וממוקדים בפעולה.