AI Singapore משתמשת ב-Gemma 2 כדי להפוך את ה-AI למכליל יותר בדרום מזרח אסיה
AI Singapore, שנוסדה בשנת 2017, היא רשת לאומית של מוסדות ומארגני מחקר בתחום ה-AI שמוקדשים לקידום הפיתוח של AI בסינגפור. אחד מהפרויקטים של הארגון, SEA-LION, הוא משפחה של מודלים פתוחים שמאפשרת ליהנות מהיתרונות של מודלים גדולים של שפה (LLM) במדינות דרום-מזרח אסיה (SEA), שבעבר לא זכו לתשומת לב בעולם ה-AI.
הצוות שמאחורי SEA-LION בחר ב-Gemma, משפחת המודלים הפתוחים הקלים והיעילים של Google, בגלל אוצר המילים וההבנה הלשונית שלה, וגם בגלל יחס הגודל-ביצועים שלה. בעזרת Gemma, המפתחים של SEA-LION יצרו LLM יעיל, חזק ונגיש, שמיליוני אנשים באזור אסיה-פסיפיק משתמשים בו היום.
האתגר
צוות SEA-LION הבין שרבות מהשפות המדוברות באזור לא מיוצגות במודלים הפופולריים ביותר של LLM כיום, כלומר לחלקים מהאזור ולקבוצות שלמות של אנשים יש גישה מוגבלת או אפסית להרבה מהיישומים הפוטנציאליים של AI. הצוות גם גילה שגם כשלמודלים האלה של LLM יש הבנה בסיסית של השפות המקומיות בדרום-מזרח אסיה, הם לא מבינים את ההבדלים הלשוניים והתרבותיים שידועים למדברים בשפה הזו כשפת אם.
כפי שמסביר William Tjhi, ראש תחום הבינה המלאכותית ב-AI Singapore, רוב ה-AI בעולם מבוסס על שפות מערביות ומזרחיות, כך שיכול להיות שחלק מהמידע יאבד בתרגום: "הנוף הגלובלי של מודלים גדולים של שפה התפתח סביב שני גופי מחקר: החוף המערבי של ארה"ב והודו. המודלים האלה משקפים את תפיסות העולם האלה על סמך קבוצות הנתונים שמשמשות לאימון שלהם והשפות שבהן הם מאומנים".
"ה-Tokenizer של Gemma מניב ביצועים טובים יותר כשמחילים אותו על השפות שאנחנו משתמשים בהן באזור שלנו. אפשר לראות את זה בפלט. כך אפשר לשפר משמעותית את ביצועי המודל כשמאמנים אותו על אסימונים של SEA, כי ה-tokenizer יעיל יותר בהשוואה ל-tokenizer של מודלים אחרים".
הפתרון
צוות SEA-LION יצר קבוצה מקיפה של מודלים מסוג LLM שמשקפים במדויק את הניואנסים, ההקשרים והמגוון התרבותי של האזור. כדי ליצור מודל LLM מתאים עם הבנה אמיתית של קבוצה חדשה לגמרי של שפות, הצוות נזקק לנתוני אימון מגוונים ואיכותיים, ולכן הם החליטו לשתף פעולה עם צוותי המחקר וה-DeepMind של Google. הם גם עבדו עם דוברי שפת אם ולשונאים כדי לסנן נתונים לא רלוונטיים שמגיעים ממקורות כמו מודעות ותוכן של הימורים, וכדי להבטיח תרגומים מדויקים שנשמעים טבעיים.
הגרסה האחרונה של הצוות, SEA-LION V3, הוכשרה מראש באופן רציף ב-Gemma 2, באמצעות 200 מיליארד אסימונים של נתוני SEA. הצוות גילה שהמיקסם של Gemma לא רק הכיל יותר אסימונים בשפות היעד, אלא גם הניב ביצועים טובים יותר ממודלים אחרים. בחרנו בגרסה של Gemma עם 9 מיליארד פרמטרים בגלל הגודל והיעילות שלה, כי המשאבים הנדרשים להפעלת מודלים בקנה מידה גדול יותר עשויים להיות מוגבלים בחלקים רבים של האזור.

ההשפעה
SEA-LION V3 היא הגרסה המתקדמת ביותר של הצוות עד כה, ומפתחים וחוקרים מקומיים אחרים של AI כבר משתמשים בה. חברת הטכנולוגיה GoTo השיקה לאחרונה את Sahabat-AI, סביבה עסקית של LLM שמבוססת על SEA-LION למפתחים באינדונזיה. Sahabat-AI משולב בסייעת הקולית Dira AI של GoTo, ומאפשר למשתמשים לגשת לשירותי התשלומים של Gojek ו-GoPay באמצעות פקודות קוליות בשפות ובדיאלקטים מקומיים.
מנכ"ל GoTo, פטריק וולוג'ו (Patrick Walujo), אמר שהוא מצפה ש-Sahabat-AI תשפיע באופן חיובי על מיליוני אנשים באינדונזיה: "היא תעזור לעסקים שלנו לתקשר עם הלקוחות בדרכים חדשות, ותאפשר למשרדי הממשלה לפתח כלים ליצירת אינטראקציה מקיפה יותר עם האזרחים".
11
רמת בקיאות בשפות מדרום-מזרח אסיה
14k+
הורדות ב-Hugging Face
38M
משתמשים פעילים בחודש ב-GoPay יכולים להשתמש ב-Dira
מה השלב הבא?
הצוות של AI Singapore כבר מתכנן את הגרסה הבאה של SEA-LION. המטרה שלהם היא ליצור גרסאות קטנות וגדולות יותר של פרמטרים באמצעות Gemma, כדי להתאים למגוון רחב יותר של תרחישים לדוגמה ולהציע לקהילות המקומיות גמישות רבה יותר. ההצלחה של SEA-LION הייתה חיונית לפריחה של AI ב-SEA, ופלטפורמות LLM אחרות שנוצרו על בסיסה, כמו Sahabat-AI, הן רק ההתחלה.
"השקת הגרסה החדשה של SEA-LION v3 שמבוססת על Gemma עם AI Singapore היא צעד משמעותי קדימה בתחום ה-AI המקיף. בעזרת Gemma 2 של Google, המודל החדש הזה משיג ביצועים טובים יותר באופן משמעותי מגרסאות קודמות במגוון מדדי הערכה בדרום-מזרח אסיה", אמר מניש גופטה (Manish Gupta), מנהל בכיר ב-Google DeepMind. "אנחנו מצפים לאפשרויות המרגשות שייפתחו בעקבות הפעולה הזו, וליתרונות שהיא תביא לקהילות המגוונות ברחבי דרום-מזרח אסיה".