שיתוף

INSAIT יוצרת את תוכנית ה-LLM המובילה הראשונה בבולגריה באמצעות Gemma 2

המכון למדעי המחשב, בינה מלאכותית וטכנולוגיה (INSAIT) הוא ארגון מחקר ברמה עולמית בסופיה, בולגריה. מאז היווסדה בשנת 2022, INSAIT משכה אקדמאים וחוקרים מובילים מרחבי העולם שרוצים לקדם את האפשרויות הטכנולוגיות. במסגרת המאמצים להרחיב את הנגישות של מודלים גדולים של שפה (LLM) בבולגריה, INSAIT יצרה את BgGPT, מודל שפה גדול (LLM) בבולגרית שמבין משימות שיחה ומשימות מבוססות-הוראות בבולגרית ובאנגלית.

אחרי שניסה מודלים אחרים כבסיס ל-BgGPT, צוות BgGPT החליט שמשפחת המודלים הפתוחים של Google, Gemma, מתאימה ביותר למשימה, בזכות הביצועים הטובים יותר יחסית בבולגרית ובאנגלית והגודל הקומפקטי שלה. בעזרת יכולות השפה המתקדמות של Gemma, צוות INSAIT הצליח ליצור מודל דו לשוני יעיל ויעיל הרבה יותר.

האתגר

ב-INSAIT זיהו חוסר במודלים חזקים של עיבוד שפה טבעית (NLP) בבולגרית, כי רוב המודלים הגדולים של שפה בעולם מתמקדים באנגלית או בשפות מזרחיות כמו סינית. מחסור במודלים גם גרם לחוסר בסוכני AI מבוססי-שיחה שהבינו לעומק את השפה הבולגרית ואת הניואנסים התרבותיים, תוך שמירה על עלות תפעולית סבירה. ב-INSAIT הבינו שאם הם רוצים ליצור נוכחות של בולגריה ומזרח אירופה בעולם ה-AI, הם יצטרכו ליצור LLM משלהם עם ביצועים חזקים ומדויקים.

השוואה של הביצועים של מודעות LLM בבולגרית.
תרשים להשוואת הביצועים בבולגרית של מודלים גדולים מובילים של שפה.

הפתרון

חוקרים ב-INSAIT יצרו את BgGPT כדי לכסות מגוון רחב של צרכים של מפתחים ומשתמשים דוברי בולגרית. המודל מגיע בגדלים של פרמטרים של 27B,‏ 9B ו-2B. שתי הגרסאות, 27B ו-9B, מניבות ביצועים טובים יותר מדגמים גדולים יותר כמו Qwen 2.5 72B של Alibaba ו-Llama 3.1 70B של Meta בבולגרית. לעומת זאת, הגרסה 2B מניבה ביצועים טובים יותר ממודלים אחרים של שפה קטנה, כמו Phi 3.5 של Microsoft ו-Qwen 2.5 3B של Alibaba. כל שלושת המודלים שומרים על ביצועים תחרותיים באנגלית, הודות ליכולות הלשוניות המרשימות של Gemma 2.

"Gemma עוזרת לנו להשיג ביצועים מתקדמים ב-NLP בבולגרית, על ידי מתן בסיס חזק וניתן להתאמה לכוונון מדויק."

– אנטון אלכסנדרוב, דוקטורנט ב-INSAIT

BgGPT אומן מראש על כ-85 מיליארד אסימונים בבולגרית ועל 15 מיליארד אסימונים באנגלית. אחד מהאלמנטים הייחודיים יותר בפיתוח של BgGPT היה השימוש באסטרטגיית ההדרכה המתמשכת של INSAIT, הסתעפות ומיזוג, שמאפשרת למודל ללמוד מידע חדש כמו בולגרית בלי להחליף או לאבד מידע ישן, כמו ההבנה העמוקה של Gemma במתמטיקה ובאנגלית. התופעה הזו נקראת 'שכחה קטסטרופית', והיא עדיין מהווה אתגר חוזר בפיתוח LLM.

אסטרטגיית אימון מראש של מותגים ומוצרים.
תרשים זרימה שמתעד את האסטרטגיה של אימון מראש באמצעות Branch-and-Merge.

ההשפעה

BgGPT מניע עכשיו את פלטפורמת הצ'אט הציבורית בכתובת BgGPTt.ai באמצעות שתי הווריאציות שלו – 27B ו-2B. המודלים מסוג 2B מטפלים במשימות ספציפיות כמו ניסוח מחדש של שאילתות של משתמשים וסיווג, בעוד שהמודל מסוג 27B מטפל ברכיבי השיחה. מאז השקתה במרץ 2024, מערכת BgGPT.ai השיבה למיליוני שאלות של משתמשים. השקת BgGPT גם הופכת את INSAIT לארגון הראשון במרכז ובמזרח אירופה שהשיק LLM תחרותי ברמה גלובלית שפותח באופן ציבורי, ומבססת את הארגון כמנהיג באזור.

צוות INSAIT גם שיתף עם המפתחים את האסטרטגיה שלו לאימון מתמשך לפני השימוש (pre-training) בשיטת הסתעפות ומיזוג, שיש לה פוטנציאל להאיץ במהירות את הצמיחה של מודלים של AI. בנוסף, היא שיתפה את כל צינור עיבוד הנתונים של ההדרכה. היכולת להרחיב באופן קבוע את בסיס הידע של LLM בלי לאבד נתונים קודמים עשויה לשפר את יעילות האימון ולהפוך את ה-LLM חכם יותר.

48k+

הורדות ב'פרצוף מחבק'*

5 מיליון

שאלות שנענו ב-BgGPT.ai

  • *מספר ההורדות מ-1 בדצמבר עד 31 בדצמבר 2024

מה השלב הבא?

השימוש ב-BgGPT ממשיך לגדול. תוכניות פיילוט החלו בסוכנות ממשלתיות בבולגריה, כמו הסוכנות הלאומית לענייני הכנסה (NRA), כדי לבדוק את היעילות של LLM בתרחישים מיוחדים. ב-INSAIT הביעו גם עניין בהרחבת פוטנציאל החשיפה של BgGPT לתחומים אחרים, כמו חינוך, ניהול ציבורי ואוטומציה עסקית.

המפתחים, החוקרים והאקדמאים הנלהבים ב-INSAIT מחויבים לקידום טכנולוגיית ה-AI במזרח אירופה וברחבי העולם. בעתיד, צוות INSAIT מתכנן לשפר את BgGPT באמצעות שילוב פוטנציאלי של קריאות פונקציות וכוונון עדין נוסף באמצעות מודלים בסיסיים גדולים יותר, וכן מודלים לאימון במדינות אחרות.