INSAIT создает первый в Болгарии ведущий LLM с Gemma 2
Институт компьютерных наук, искусственного интеллекта и технологий (INSAIT) — исследовательская организация мирового уровня в Софии, Болгария. С момента своего основания в 2022 году INSAIT привлекает ведущих ученых и исследователей со всего мира, стремящихся к развитию технологий. Стремясь расширить доступность LLM в Болгарии, INSAIT создала BgGPT , болгарскую модель большого языка (LLM), которая понимает разговорные и основанные на инструкциях задачи на болгарском и английском языках.
После экспериментов с другими моделями, лежащими в основе BgGPT, команда BgGPT решила, что семейство открытых моделей Google Gemma лучше всего подходит для этой задачи благодаря сравнительно лучшей производительности на болгарском и английском языках и компактному размеру. Используя превосходные языковые возможности Gemma, INSAIT смог создать гораздо более эффективную и действенную двуязычную модель.
Задача
INSAIT отметил отсутствие сильных моделей обработки естественного языка (NLP) в болгарском языке, поскольку большая часть LLM в мире ориентирована на английский или восточные языки, такие как китайский. Нехватка моделей также означала отсутствие диалоговых агентов искусственного интеллекта, которые глубоко понимали болгарский язык и культурные нюансы, сохраняя при этом разумные эксплуатационные расходы. INSAIT знала, что если они хотят закрепить присутствие Болгарии и Восточной Европы в мире искусственного интеллекта, им придется создать свою собственную LLM с мощными и точными характеристиками.

Решение
Исследователи INSAIT создали BgGPT , чтобы удовлетворить широкий спектр потребностей болгарскоязычных разработчиков и пользователей. Модель поставляется с размерами параметров 27B, 9B и 2B. Варианты 27B и 9B превосходят более крупные модели, такие как Qwen 2.5 72B от Alibaba и Llama 3.1 70B от Meta на болгарском языке. Между тем, версия 2B превосходит другие небольшие языковые модели, такие как Phi 3.5 от Microsoft и Qwen 2.5 3B от Alibaba. Все три модели поддерживают конкурентоспособные показатели английского языка благодаря впечатляющим лингвистическим возможностям Gemma 2.
«Джемма помогает нам достичь самых современных результатов в болгарском НЛП, предоставляя надежную, масштабируемую основу для тонкой настройки».
BgGPT был предварительно обучен примерно на 85 миллиардах болгарских токенов и 15 миллиардах английских токенов. Одним из наиболее уникальных элементов разработки BgGPT было использование собственной стратегии непрерывного предварительного обучения INSAIT «Ветвления и слияния» , которая позволяет модели изучать новую информацию, например болгарский, без замены или потери старой информации, как, например, глубокое понимание Джеммой математики и английского языка. Это явление называется «катастрофическим забыванием» и остается постоянной проблемой в развитии LLM.

Воздействие
BgGPT теперь поддерживает платформу публичного чата BgGPTt.ai, используя варианты 27B и 2B. Модели 2B решают конкретные задачи, такие как перефразирование пользовательских запросов и классификация, а модель 27B обрабатывает диалоговые элементы. С момента своего выпуска в марте 2024 года BgGPT.ai ответил на миллионы вопросов пользователей. Выпуск BgGPT также делает INSAIT первой организацией в Центральной и Восточной Европе, которая запустила конкурентоспособную на мировом уровне публичную программу LLM , что сделало организацию лидером в регионе.
INSAIT также поделился с разработчиками своей стратегией непрерывного предварительного обучения «ветвление и слияние» , которая потенциально может ускорить рост моделей ИИ. Он также поделился всем своим процессом обучения . Возможность постоянно расширять базу знаний LLM без потери предварительных данных позволит повысить эффективность обучения и сделать LLM более разумными.
48 тыс.+
Загрузки на Hugging Face*
5М
Ответы на вопросы на BgGPT.ai
- *количество скачиваний с 1 по 31 декабря 2024 г.
Что дальше
Принятие BgGPT продолжает расти. Пилотные программы начались в болгарских правительственных учреждениях, таких как Национальное агентство по доходам (NRA), проверяя эффективность LLM в специализированных сценариях. INSAIT также выразил заинтересованность в расширении охвата BgGPT на другие области, такие как образование, государственное управление и автоматизация бизнеса.
Увлеченные разработчики, исследователи и ученые INSAIT стремятся продвигать технологии искусственного интеллекта в Восточной Европе и за рубежом. Заглядывая в будущее, INSAIT планирует улучшить BgGPT за счет потенциального включения вызова функций и дальнейшей тонкой настройки с помощью более крупных базовых моделей, а также моделей обучения для других стран.