공유

AI Singapore, Gemma 2를 통해 동남아시아를 위한 포용적인 AI 제공

2017년에 출범한 AI Singapore는 싱가포르의 AI 개발을 발전시키기 위해 노력하는 AI 연구 기관 및 조직의 전국 네트워크입니다. 프로젝트 중 하나인 SEA-LION은 이전에 AI 업계에서 간과했던 동남아시아 (SEA) 국가에 LLM의 힘을 가져다주는 개방형 모델 제품군입니다.

SEA-LION의 개발팀은 Google의 경량화되고 효율적인 오픈 모델 제품군인 Gemma를 크기 대비 성능 비율, 어휘 및 언어 이해도 등의 이유로 선택했습니다. SEA-LION 개발자는 Gemma를 사용하여 오늘날 동남아시아 지역의 수백만 명이 사용하는 강력하고 효율적이며 접근성이 뛰어난 LLM을 만들었습니다.

도전과제

SEA-LION팀은 이 지역에서 사용되는 많은 언어가 오늘날 가장 인기 있는 LLM으로 표현되지 않는다는 사실을 인식했습니다. 즉, 이 지역의 일부와 전체 인구 집단이 AI의 잠재적 애플리케이션을 거의 또는 전혀 이용할 수 없었습니다. 또한 이러한 주류 LLM이 현지 동남아시아 언어에 대한 기본적인 이해는 가지고 있지만, LLM은 현지 원어민에게 알려진 언어적, 문화적 차이를 이해하지 못하는 것으로 나타났습니다.

AI Singapore의 인공지능 책임자인 윌리엄 치히는 전 세계 AI의 대부분이 서양 및 동양 언어를 기반으로 하기 때문에 번역 과정에서 많은 정보가 손실될 수 있다고 설명합니다. “전 세계 LLM 환경은 서부 해안과 중국이라는 두 기관을 중심으로 발전했습니다. 이러한 모델은 학습에 사용되는 데이터 세트와 학습에 사용되는 언어를 기반으로 이러한 세계관을 반영합니다."

“Gemma의 토큰라이저는 우리 지역의 언어에 적용할 때 더 나은 성능을 보입니다. 출력에서 확인할 수 있습니다. 이렇게 하면 SEA 토큰으로 학습할 때 모델 성능이 크게 향상됩니다. 토큰 생성기가 다른 모델의 토큰 생성기보다 더 최적화되어 있기 때문입니다."

— 윌리엄 치, AI Singapore 인공지능 책임자

해결 방법

SEA-LION팀은 지역의 뉘앙스, 맥락, 문화적 다양성을 정확하게 반영하는 포용적인 LLM 세트를 만들었습니다. 완전히 새로운 언어를 제대로 이해하는 적절한 LLM을 빌드하려면 다양한 고품질 학습 데이터가 필요했기 때문에 Google DeepMind 및 연구팀과 협력하기로 했습니다. 또한 원어민 및 언어학자와 협력하여 도박 콘텐츠 및 광고와 같은 출처에서 발생하는 관련 없는 데이터를 필터링하고 정확하고 자연스러운 번역을 보장했습니다.

팀의 최신 버전인 SEA-LION V3는 2,000억 개의 SEA 데이터 토큰을 사용하여 Gemma 2에서 지속적으로 사전 학습되었습니다. 연구팀은 Gemma의 토큰 생성기가 의도한 언어의 토큰을 더 많이 포함할 뿐만 아니라 다른 모델보다 성능이 우수하다는 사실을 발견했습니다. Gemma의 90억 개 매개변수 버전은 크기와 효율성으로 인해 선택되었습니다. 대규모 모델을 실행하는 데 필요한 리소스는 지역의 많은 부분에서 제한될 수 있기 때문입니다.

SEA-LION의 영어 태스크 실적과 SEA 평균 실적 간의 상관관계
SEA-LION의 영어 태스크 실적과 SEA 평균 실적 간의 관계를 보여주는 벤치마크입니다.

영향

SEA-LION V3는 팀의 가장 진보된 버전이며 다른 현지 AI 개발자와 연구원들이 이미 이를 활용하고 있습니다. 기술 기업 GoTo는 최근 인도네시아 개발자를 위해 SEA-LION을 기반으로 구축된 LLM 생태계인 Sahabat-AI를 출시했습니다. Sahabat-AI는 GoTo의 Dira AI 음성 어시스턴트에 통합되어 사용자가 모국어 및 방언으로 음성 명령을 사용하여 Gojek 및 GoPay 결제 서비스에 모두 액세스할 수 있습니다.

GoTo CEO 패트릭 발주조는 Sahabat-AI가 인도네시아에서 수백만 명의 삶에 긍정적인 영향을 미칠 것으로 기대한다고 말했습니다. 'Sahabat-AI는 비즈니스가 고객과 새로운 방식으로 소통하는 데 도움이 될 것이며, 정부 부처가 시민과 더 포괄적으로 소통하는 도구를 개발하는 데 도움이 될 것입니다.'

11

동남아시아 언어 능력

14,000 이상

Hugging Face에서 다운로드

3,800만 회 이상

GoPay의 월간 활성 사용자는 Dira에 액세스할 수 있습니다.

다음 단계

AI Singapore팀은 이미 SEA-LION의 다음 버전을 계획하고 있습니다. 목표는 Gemma를 사용하여 더 크고 작은 매개변수 버전을 만들어 더 다양한 사용 사례를 지원하고 지역 커뮤니티에 더 큰 유연성을 제공하는 것입니다. SEA-LION의 성공은 동남아시아의 AI 붐에 필수적이었으며, Sahabat-AI와 같이 SEA-LION을 기반으로 구축되는 다른 LLM은 시작에 불과합니다.

“AI Singapore와 함께 새로운 Gemma 기반 SEA-LION v3을 출시함으로써 포용적인 AI를 향한 중요한 진전을 이루었습니다. Google의 Gemma 2를 활용한 이 새로운 모델은 동남아시아 평가 측정항목 전반에서 이전 버전보다 훨씬 우수한 성능을 보입니다."라고 Google DeepMind의 수석 디렉터인 마니시 굽타는 말했습니다. “이번 파트너십을 통해 동남아시아 전역의 다양한 커뮤니티에 흥미로운 애플리케이션과 혜택이 제공되기를 기대합니다.”