分享

INSAIT 使用 Gemma 2 打造了首个在保加利亚领先的 LLM

计算机科学、人工智能和技术研究所(INSAIT) 是保加利亚索非亚的世界级研究机构。自 2022 年成立以来,INSAIT 吸引了世界各地致力于推动技术进步的顶尖学者和研究人员。为了扩大大语言模型 (LLM) 在保加利亚的普及范围,INSAIT 开发了 BgGPT,这是一种保加利亚语大语言模型 (LLM),可理解保加利亚语和英语的对话和基于指令的任务。

在尝试使用其他模型作为 BgGPT 的基础后,BgGPT 团队决定采用 Google 的 Gemma 系列开放式模型,因为该模型在保加利亚语和英语方面的表现相对较好,而且体积较小。借助 Gemma 的卓越语言功能,INSAIT 能够构建出更高效的双语模型。

挑战

INSAIT 发现,保加利亚语没有强大的自然语言处理 (NLP) 模型,因为世界上的大多数 LLM 都专注于英语或东方语言(如汉语)。模型的匮乏也意味着缺少能够深入了解保加利亚语和文化细微差异,同时保持合理运营成本的对话式 AI 客服人员。INSAIT 知道,如果他们想让保加利亚和东欧在 AI 领域占据一席之地,就必须打造自己的 LLM,使其具有强大且准确的性能。

保加利亚语 LLM 的效果比较。
一张图表,比较了热门 LLM 在保加利亚的表现。

解决方案

INSAIT 研究人员创建了 BgGPT,以满足讲保加利亚语的开发者和用户的各种需求。该模型的参数大小有 270 亿、90 亿和 20 亿。在保加利亚语方面,270 亿参数和 90 亿参数变体都优于 Alibaba 的 Qwen 2.5 720 亿参数模型和 Meta 的 Llama 3.1 700 亿参数模型。与此同时,20 亿参数版本的效果优于 Microsoft 的 Phi 3.5 和 Alibaba 的 Qwen 2.5 30 亿参数版本等其他小型语言模型。得益于 Gemma 2 出色的语言能力,这三种模型在英语方面的表现都非常出色。

“Gemma 为微调提供了可靠且可扩缩的基础,帮助我们在保加利亚语 NLP 领域取得了最先进的效果。”

- Anton Alexandrov,INSAIT 博士生

BgGPT 基于约 850 亿个保加利亚语词元和 150 亿个英语词元进行了预训练。BgGPT 开发过程中最具特色的元素之一是使用了 INSAIT 自己的分支和合并持续预训练策略,该策略使模型能够学习保加利亚语等新信息,而不会替换或丢失旧信息,例如 Gemma 对数学和英语的深刻理解。这种现象被称为“灾难性遗忘”,仍然是 LLM 开发中反复出现的挑战。

Brand-and-Mege 预训练策略。
流程图,记录了分支和合并预训练策略。

影响

BgGPT 现在使用其 27B 和 2B 变体为 BgGPTt.ai 上的公开聊天平台提供支持。2B 模型负责处理特定任务,例如重述用户询问和分类,而 27B 模型负责处理对话元素。自 2024 年 3 月发布以来,BgGPT.ai 已回答了数百万个用户问题。BgGPT 的发布也使 INSAIT 成为中欧和东欧地区首个发布具有全球竞争力的公开开发 LLM 的组织,使其成为该地区的领军者。

INSAIT 还与开发者分享了其分支和合并持续预训练策略,该策略有望快速加速 AI 模型的发展。它还分享了整个训练流水线。能够在不丢失之前数据的情况下不断扩展 LLM 的知识库,有助于提高训练效率并让 LLM 变得更智能。

48,000 次以上

Hugging Face 上的下载次数*

500 万

在 BgGPT.ai 上回答的问题

  • *2024 年 12 月 1 日至 12 月 31 日的下载次数

后续步骤

BgGPT 的采用率在不断增长。保加利亚国家税务局 (NRA) 等政府机构已开始开展试点计划,测试 LLM 在特定场景中的有效性。INSAIT 还表示有意将 BgGPT 的应用范围扩大到教育、公共管理和企业自动化等其他领域。

INSAIT 的开发者、研究人员和学者充满热情,致力于在东欧和海外推动 AI 技术的发展。今后,INSAIT 计划通过可能的函数调用来改进 BgGPT,并通过更大的基准模型以及针对其他国家/地区的训练模型进行进一步微调。