ИИ Сингапур делает ИИ более инклюзивным для Юго-Восточной Азии с помощью Gemma 2
AI Singapore , созданная в 2017 году, представляет собой национальную сеть исследовательских институтов и организаций в области искусственного интеллекта, занимающихся продвижением развития искусственного интеллекта в Сингапуре. Один из ее проектов, SEA-LION , представляет собой семейство открытых моделей, которые привносят возможности LLM в страны Юго-Восточной Азии (ЮВА), которые ранее упускались из виду в мире искусственного интеллекта.
Команда SEA-LION выбрала Gemma, семейство легких и эффективных открытых моделей Google, за ее словарный запас и лингвистическое понимание, а также за соотношение размера и производительности. С помощью Gemma разработчики SEA-LION создали мощный, эффективный и доступный LLM, которым сегодня пользуются миллионы людей в регионе ЮВА.
Задача
Команда SEA-LION осознала, что многие языки, на которых говорят в регионе, не представлены самыми популярными сегодня LLM, а это означало, что части региона и целые группы людей практически не имели доступа ко многим потенциальным приложениям ИИ. Команда также обнаружила, что даже когда эти основные студенты LLM имели базовое понимание местных языков ЮВА, им не хватало понимания языковых и культурных различий, известных носителям языка.
Как объясняет Уильям Тхи, руководитель отдела искусственного интеллекта AI Singapore, большая часть мирового ИИ построена на западных и восточных языках, а это означает, что многое может быть потеряно при переводе: «Глобальный ландшафт LLM развивался вокруг двух тел: Западного побережья и Китая. Эти модели отражают эти мировоззрения, основанные на наборах данных, которые их обучают, и языках, которые их обучают».
«Токенайзер Джеммы работает лучше при применении к языкам, которые есть в нашем регионе. Вы можете увидеть это на выходе. Это значительно повышает производительность модели при обучении на токенах SEA, поскольку токенизатор более оптимален по сравнению с токенизатором других моделей».
Решение
Команда SEA-LION создала инклюзивный набор программ LLM, которые точно отражают нюансы, контекст и культурное разнообразие региона. Чтобы создать полноценную программу LLM с истинным пониманием совершенно нового набора языков, команде потребовались разнообразные высококачественные обучающие данные, поэтому они решили сотрудничать с командами Google DeepMind & Research. Они также работали с носителями языка и лингвистами, чтобы отфильтровать ненужные данные, поступающие из таких источников, как контент об азартных играх и рекламу, и обеспечить точные и естественно звучащие переводы.
Последняя итерация команды, SEA-LION V3, постоянно проходила предварительное обучение на Gemma 2 с использованием 200 миллиардов токенов данных SEA. Команда обнаружила, что токенизатор Gemma не только содержит больше токенов для нужных языков, но и работает лучше, чем другие модели. Версия Gemma с 9 миллиардами параметров была выбрана из-за ее размера и эффективности, поскольку ресурсы, необходимые для запуска крупномасштабных моделей, могут быть ограничены во многих частях региона.

Воздействие
SEA-LION V3 — это самая продвинутая версия команды, и другие местные разработчики и исследователи искусственного интеллекта уже используют ее. Технологическая компания GoTo недавно запустила Sahabat-AI , экосистему LLM, построенную на SEA-LION для индонезийских разработчиков. Sahabat-AI интегрирован в голосовой помощник Dira AI от GoTo, что позволяет пользователям получать доступ к платежным сервисам Gojek и GoPay с помощью голосовых команд на родных языках и диалектах.
Генеральный директор GoTo Патрик Валухо заявил, что он ожидает, что Sahabat-AI окажет положительное влияние на миллионы жизней в Индонезии: «Это поможет нашему бизнесу по-новому общаться с клиентами, это поможет нашим правительственным министерствам разработать инструменты для более всестороннего взаимодействия с гражданами».
11
Знание языков Юго-Восточной Азии
14 тыс.+
Загрузки на тему «Обнимающее лицо»
38М
Ежемесячные активные пользователи GoPay имеют доступ к Dira
Что дальше
Команда AI Singapore уже планирует следующую версию SEA-LION. Их цель — создавать меньшие и большие версии параметров с помощью Gemma, удовлетворяя более широкий спектр вариантов использования и предлагая местным сообществам еще большую гибкость. Успех SEA-LION сыграл важную роль в буме искусственного интеллекта в SEA, и другие LLM, создаваемые на его основе, такие как Sahabat-AI, — это только начало.
«Запуск нового SEA-LION v3 на базе Gemma с AI Singapore представляет собой важный шаг вперед для инклюзивного ИИ. Используя возможности Google Gemma 2, эта новая модель значительно превосходит предыдущие версии по ряду показателей оценки в Юго-Восточной Азии», — сказал Маниш Гупта, старший директор Google DeepMind. «Мы с нетерпением ждем интересных приложений, которые это откроет, и преимуществ, которые это принесет различным сообществам Юго-Восточной Азии».