AI Singapore 利用 Gemma 2 为东南亚打造更具包容性的 AI 技术
AI Singapore 成立于 2017 年,是一个由 AI 研究机构和组织组成的全国性网络,致力于推动新加坡 AI 的发展。该项目的其中一个子项目 SEA-LION 是一组开放模型,可将 LLM 的强大功能带给之前被 AI 界忽视的东南亚 (SEA) 国家/地区。
SEA-LION 背后的团队之所以选择 Gemma(Google 一系列轻量高效的开放模型),是因为它具有丰富的词汇量和语言理解能力,并且大小与性能比率出色。借助 Gemma,SEA-LION 开发者打造了一款强大、高效且易用的 LLM,目前东南亚地区有数百万人在使用。
挑战
SEA-LION 团队意识到,当今最流行的 LLM 无法涵盖该地区所使用的许多语言,这意味着该地区的部分地区和整个群体几乎无法使用 AI 的许多潜在应用。研究团队还发现,即使这些主流 LLM 对东南亚当地语言有基本的了解,但也无法理解母语人士熟知的语言和文化差异。
新加坡 AI 公司人工智能主管 William Tjhi 解释说,全球大多数 AI 都是基于西方和东方语言构建的,这意味着翻译过程中可能会丢失很多信息:“全球 LLM 格局围绕两个组织发展起来的:美国西海岸和中国。这些模型反映了训练它们的数据集和训练它们的语言所代表的世界观。”
“将 Gemma 的词语分割器应用于我们所在地区的语言后,效果会更好。您可以在输出中看到这一点。这大大提高了在 SEA 令牌上训练的模型性能,因为与其他模型的词解析器相比,该词解析器更为优化。”
解决方案
SEA-LION 团队创建了一组包容性的 LLM,能够准确反映该地区的细微差别、背景和文化多样性。为了构建能够真正理解一整套全新语言的适当 LLM,该团队需要多样化且高质量的训练数据,因此决定与 Google DeepMind 和 Google Research 团队合作。他们还与母语人士和语言学家合作,滤除来自赌博内容和广告等来源的无关数据,确保译文准确且自然。
该团队的最新迭代版本 SEA-LION V3 使用 2000 亿个 SEA 数据令牌在 Gemma 2 上持续预训练。该团队发现,Gemma 的词解析器不仅包含更多目标语言的词元,而且性能也优于其他模型。由于该地区的许多地方运行大型模型所需的资源可能有限,因此我们选择了 Gemma 的 90 亿参数版本,因为它具有较小的体积和较高的效率。

影响
SEA-LION V3 是该团队迄今为止最先进的迭代版本,其他本地 AI 开发者和研究人员已经在使用它。技术公司 GoTo 最近发布了 Sahabat-AI,这是一个基于 SEA-LION 构建的 LLM 生态系统,面向印度尼西亚开发者提供服务。Sahabat-AI 集成了 GoTo 的 Dira AI 语音助理,让用户可以使用母语和方言语音指令来使用 Gojek 和 GoPay 支付服务。
GoTo 首席执行官 Patrick Walujo 表示,他希望 Sahabat-AI 能对印度尼西亚数百万人的生活产生积极影响:“它将帮助我们的企业以新的方式与客户沟通,并帮助政府部门开发工具,以更全面的方式与公民互动。”
11
东南亚语言熟练程度
1.4 万+
Hugging Face 上的下载量
3800 万
GoPay 月活跃用户数,且可以使用 Dira
后续步骤
AI Singapore 团队已经在规划 SEA-LION 的下一个迭代。他们的目标是使用 Gemma 创建更小和更大的参数版本,以满足更多类型的用例,并为当地社区提供更大的灵活性。SEA-LION 的成功对东南亚 AI 的蓬勃发展至关重要,而基于 SEA-LION 构建的其他 LLM(如 Sahabat-AI)只是一个开始。
“在新加坡 AI 的支持下,推出基于 Gemma 的全新 SEA-LION v3 代表着包容性 AI 取得了重大进展。利用 Google 的 Gemma 2 的强大功能,这个新模型在一系列东南亚评估指标方面明显优于之前的版本。”Google DeepMind 高级总监 Manish Gupta 表示。“我们期待这项功能为东南亚多元化社区带来令人兴奋的应用和福利。”