共有

AI Singapore が Gemma 2 で東南アジア向けの AI をより包括的に

2017 年に設立された AI Singapore は、シンガポールの AI 開発の促進に取り組む AI 研究機関と組織の全国ネットワークです。そのプロジェクトの 1 つである SEA-LION は、これまで AI の世界で注目されていなかった東南アジア(SEA)諸国に LLM のパワーをもたらすオープンモデル ファミリーです。

SEA-LION のチームは、Google の軽量で効率的なオープンモデル ファミリーである Gemma を選択しました。これは、語彙と言語の理解、サイズとパフォーマンスの比率が理由です。SEA-LION のデベロッパーは Gemma を使用して、SEA 地域の何百万人ものユーザーが現在使用している、強力で効率的でアクセス可能な LLM を作成しました。

課題

SEA-LION チームは、この地域で話されている言語の多くが、今日最も人気のある LLM で表されていないことに気づきました。つまり、この地域の一部や、特定のグループの人々は、AI の多くの潜在的なアプリケーションにほとんどアクセスできないか、まったくアクセスできない状況でした。また、これらの主流の LLM が現地の SEA 言語の基本を理解していたとしても、LLM はネイティブ スピーカーに知られている言語的および文化的な違いを理解していないことも判明しました。

AI Singapore の人工知能担当責任者である William Tjhi 氏は、世界の AI のほとんどが西洋と東洋の言語に基づいて構築されているため、翻訳で多くの情報が失われる可能性があると説明しています。「世界の LLM 環境は、西海岸と中国の 2 つの組織を中心に進化してきました。これらのモデルは、トレーニングに使用したデータセットとトレーニングに使用した言語に基づいて、それらの世界観を反映しています。」

「Gemma の Tokenizer は、地域の言語に適用するとパフォーマンスが向上します。これは出力で確認できます。トークン化ツールが他のモデルのトークン化ツールよりも最適であるため、SEA トークンでトレーニングする場合のモデルのパフォーマンスが大幅に向上します。」

- William Tjhi、AI Singapore の AI 責任者

ソリューション

SEA-LION チームは、地域のニュアンス、コンテキスト、文化的多様性を正確に反映した包括的な LLM セットを作成しました。まったく新しい言語セットを正しく理解できる適切な LLM を構築するには、多様で質の高いトレーニング データが必要でした。そこで、Google DeepMind チームと Google Research チームとの連携を決定しました。また、ネイティブ スピーカーや言語学者と協力して、ギャンブル コンテンツや広告などのソースから取得した無関係なデータを除外し、正確で自然な翻訳を実現しました。

チームの最新のイテレーションである SEA-LION V3 は、2000 億トークンの SEA データを使用して、Gemma 2 で継続的に事前トレーニングされました。チームは、Gemma のトークン化ツールには対象言語のトークンがより多く含まれるだけでなく、他のモデルよりも優れたパフォーマンスを発揮することを発見しました。Gemma の 90 億パラメータ バージョンは、サイズと効率性から選択されました。大規模モデルの実行に必要なリソースは、地域の多くの地域で制限される可能性があるためです。

SEA-LION の英語タスクのパフォーマンスと SEA の平均パフォーマンスの相関関係。
SEA-LION の英語タスクのパフォーマンスと SEA の平均パフォーマンスの関係を示すベンチマーク。

効果

SEA-LION V3 は、チームがこれまでに開発した中で最も高度なバージョンであり、他のローカル AI デベロッパーや研究者もすでに活用しています。テクノロジー企業の GoTo は最近、インドネシアのデベロッパー向けに SEA-LION 上に構築された LLM エコシステムである Sahabat-AI をリリースしました。Sahabat-AI は GoTo の Dira AI 音声アシスタントに統合されており、ユーザーは母国語や方言の音声コマンドを使用して Gojek と GoPay の両方の支払いサービスにアクセスできます。

GoTo の CEO である Patrick Walujo 氏は、Sahabat-AI がインドネシアの数百万人の生活にプラスの影響を与えると期待していると述べています。「企業が新しい方法で顧客とコミュニケーションをとるのに役立ち、政府省庁が市民とより包括的に交流するためのツールを開発するのに役立ちます。」

11

東南アジアの言語の習熟度

14,000 以上

Hugging Face でのダウンロード

3,800 万回

GoPay の月間アクティブ ユーザーは Dira にアクセスできます

次のステップ

AI Singapore のチームは、SEA-LION の次のイテレーションをすでに計画しています。Google は、Gemma を使用してパラメータのサイズを小さくしたり大きくしたりすることで、さまざまなユースケースに対応し、地域コミュニティにさらに柔軟性を提供することを目標としています。SEA-LION の成功は、SEA の AI ブームに不可欠でした。Sahabat-AI などの LLM は、その上に構築された他の LLM の始まりにすぎません。

「AI Singapore との共同開発による Gemma ベースの新しい SEA-LION v3 のリリースは、包括的な AI にとって大きな前進です。Google の Gemma 2 の力を活用することで、この新しいモデルは、東南アジアのさまざまな評価指標で以前のバージョンを大幅に上回っています。」と、Google DeepMind のシニア ディレクターである Manish Gupta 氏は述べています。「この技術がもたらす魅力的なアプリケーションと、東南アジアの多様なコミュニティにもたらすメリットを楽しみにしています。」