RecurrentGemma 모델 카드

모델 페이지: RecurrentGemma

리소스 및 기술 문서:

이용약관: 약관

작성자: Google

모델 정보

모델 요약

설명

RecurrentGemma는 Google에서 개발한 새로운 반복 아키텍처를 기반으로 구축된 개방형 언어 모델 제품군입니다. 선행 학습 버전과 명령 조정 버전은 모두 영어로 제공됩니다.

Gemma와 마찬가지로 RecurrentGemma 모델은 질의 응답, 요약, 추론을 비롯한 다양한 텍스트 생성 작업에 적합합니다. RecurrentGemma는 새로운 아키텍처 덕분에 Gemma보다 적은 메모리를 필요로 하며 긴 시퀀스를 생성할 때 추론 속도가 더 빠릅니다.

입력 및 출력

  • 입력: 텍스트 문자열 (예: 질문, 프롬프트 또는 요약할 문서)입니다.
  • 출력: 입력에 대한 응답으로 생성된 영어 텍스트입니다 (예: 질문에 대한 답변, 문서 요약).

인용문

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

모델 데이터

학습 데이터 세트 및 데이터 처리

RecurrentGemma는 Gemma 모델 계열에서 사용하는 것과 동일한 학습 데이터 및 데이터 처리를 사용합니다. 자세한 설명은 Gemma 모델 카드에서 확인할 수 있습니다.

구현 정보

학습 중에 사용되는 하드웨어 및 프레임워크

RecurrentGemma는 Gemma와 마찬가지로 JAXML Pathways를 사용하여 TPUv5e에서 학습되었습니다.

평가 정보

벤치마크 결과

평가 방식

이러한 모델은 텍스트 생성의 여러 측면을 고려하여 다양한 데이터 세트 및 측정항목을 기준으로 평가되었습니다.

평가 결과

벤치마크 측정항목 RecurrentGemma 2B RecurrentGemma 9B
MMLU 5샷, 탑1 38.4 60.5
HellaSwag 제로샷 71.0 80.4
PIQA 제로샷 78.5 81.3
SocialIQA 제로샷 51.8 52.3
BoolQ 제로샷 71.3 80.3
WinoGrande 부분 점수 67.8 73.6
CommonsenseQA 7샷 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5샷 52.5 70.5
자연스러운 질문 5샷 11.5 21.7
HumanEval 1번 인증 21.3 31.1
MBPP 3샷 28.8 42.0
GSM8K 메이저@1 13.4명 42.6
MATH 4샷 11.0 23.8
AGIEval 23.8 39.3
빅벤치 35.3 55.2
평균 44.6 56.1

윤리 및 안전

윤리 및 안전 평가

평가 접근 방식

Google의 평가 방법에는 관련 콘텐츠 정책에 대한 구조화된 평가와 내부 레드팀 테스트가 포함됩니다. 레드팀은 각각 목표와 인적 평가 측정항목이 서로 다른 여러 팀에서 수행했습니다. 이 모델은 다음을 포함하여 윤리 및 안전과 관련된 여러 카테고리에 대해 평가되었습니다.

  • 텍스트 간 콘텐츠 안전: 아동 성적 학대 및 착취, 괴롭힘, 폭력 및 유혈, 증오심 표현 등 안전 정책을 다루는 프롬프트에 대한 검토자의 평가입니다.
  • 텍스트 간 표현에 미치는 피해: WinoBias 및 BBQ 데이터 세트와 같은 관련 학술 데이터 세트를 기준으로 벤치마킹합니다.
  • 기억: 개인 식별 정보 노출 위험을 포함한 학습 데이터 기억을 자동으로 평가합니다.
  • 대규모 피해: 화학, 생물, 방사선, 핵 (CBRN) 위험과 같은 '위험한 기능' 테스트와 설득 및 속임수 테스트, 사이버 보안, 자율 복제

평가 결과

윤리 및 안전 평가의 결과는 아동 안전, 콘텐츠 안전, 표현적 위해, 기억, 대규모 피해와 같은 카테고리의 내부 정책을 충족하기 위한 허용 가능한 기준 이내입니다. 강력한 내부 평가 외에도 BBQ, Winogender, WinoBias, RealToxicity, TruthfulQA 등 잘 알려진 안전 벤치마크의 결과가 여기에 표시됩니다.

벤치마크 측정항목 RecurrentGemma 2B RecurrentGemma 20억 IT RecurrentGemma 9B RecurrentGemma 90억 IT
RealToxicity 평균 9.8 7.60 10.3 8.8
대담 39.3 52.3 39.8 47.9
크라우드 페어 top-1 41.1 43.4 38.7 39.5
BBQ 암빅 top-1 62.6 71.1 95.9명 67.1
BBQ 식별 top-1 58.4 50.8 78.6 78.9
와이노젠더 top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 만 56.4세 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
톡시겐 56.7 50.0 58.8 64.5

모델 사용 및 제한사항

알려진 제한사항

이러한 모델에는 사용자가 알아야 할 몇 가지 제한사항이 있습니다.

  • 학습 데이터
    • 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터에 편향이나 차이가 있으면 모델 응답에 제한이 생길 수 있습니다.
    • 학습 데이터 세트의 범위에 따라 모델이 효과적으로 처리할 수 있는 주제 영역이 결정됩니다.
  • 컨텍스트 및 태스크 복잡성
    • LLM은 명확한 프롬프트와 지침으로 구성할 수 있는 작업에 더 적합합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 모델 성능은 제공되는 컨텍스트의 양에 따라 영향을 받을 수 있습니다. 컨텍스트가 길수록 일반적으로 특정 지점까지 더 나은 출력이 제공됩니다.
  • 언어의 모호함과 뉘앙스
    • 자연어는 본질적으로 복잡합니다. LLM은 미묘한 뉘앙스, 풍자, 상징적인 표현을 파악하는 데 어려움을 겪을 수 있습니다
  • 사실 정확성
    • LLM은 학습 데이터 세트에서 학습한 정보를 기반으로 응답을 생성하지만 기술 자료는 아닙니다. 부정확하거나 오래된 사실에 기반한 진술을 생성할 수도 있습니다.
  • 상식
    • LLM은 언어의 통계적 패턴에 의존합니다. 특정 상황에서 상식적인 추론을 적용하는 기능이 부족할 수 있습니다.

윤리적 고려사항 및 위험

대규모 언어 모델 (LLM)의 개발로 인해 몇 가지 윤리적 우려가 제기되고 있습니다. 개방형 모델을 만들 때 Google은 다음 사항을 신중하게 고려했습니다.

  • 편향 및 공정성
    • 대규모의 실제 텍스트 데이터로 학습된 LLM은 학습 자료에 내재된 사회문화적 편견을 반영할 수 있습니다. 이러한 모델은 신중한 검토, 설명된 입력 데이터 사전 처리, 이 카드에 보고된 후반 평가를 거쳤습니다.
  • 잘못된 정보 및 오용
    • LLM은 거짓이거나 오해의 소지가 있거나 유해한 텍스트를 생성하는 데 오용될 수 있습니다.
    • 모델을 책임감 있게 사용하기 위한 가이드라인은 책임감 있는 생성형 AI 툴킷을 참조하세요.
  • 투명성 및 책임
    • 이 모델 카드에는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 대한 세부정보가 요약되어 있습니다.
    • 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구자가 LLM 기술에 액세스할 수 있도록 하여 혁신을 공유할 기회를 제공합니다.

식별된 위험 및 완화:

  • 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례에서 지속적인 모니터링(평가 측정항목, 사람의 검토 사용) 및 편향 제거 기법을 탐색하는 것이 좋습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인은 필수적입니다. 개발자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
  • 악의적인 목적의 오용: 기술적 제한과 개발자 및 최종 사용자 교육은 LLM의 악성 애플리케이션 공격을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. Gemma 모델의 금지된 사용은 Google 이용약관에 설명되어 있습니다.
  • 개인 정보 보호 위반: PII (개인 식별 정보) 삭제를 위해 필터링된 데이터를 기반으로 모델을 학습시켰습니다. 개발자는 개인 정보 보호 기술을 통해 개인 정보 보호 규정을 준수하는 것이 좋습니다.

사용 목적

애플리케이션

개방형 대규모 언어 모델 (LLM)은 다양한 산업 및 분야를 아우르는 광범위한 애플리케이션을 포함합니다. 다음 목록은 포괄적이지 않습니다. 이 목록의 목적은 모델 제작자가 모델 학습 및 개발의 일부로 고려한 가능한 사용 사례에 대한 컨텍스트 정보를 제공하는 것입니다.

  • 콘텐츠 제작 및 커뮤니케이션
    • 텍스트 생성: 이러한 모델은 시, 스크립트, 코드, 마케팅 문구, 이메일 초안과 같은 창의적인 텍스트 형식을 생성하는 데 사용할 수 있습니다.
    • 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션을 위한 대화형 인터페이스를 지원합니다.
    • 텍스트 요약: 텍스트 코퍼스, 연구 논문 또는 보고서의 간결한 요약을 생성합니다.
  • 연구 및 교육
    • 자연어 처리 (NLP) 연구: 이 모델은 연구원이 NLP 기술을 실험하고 알고리즘을 개발하며 분야 발전에 기여하는 기반이 될 수 있습니다.
    • 언어 학습 도구: 문법 교정을 지원하거나 작문 연습을 제공하여 대화형 언어 학습 환경을 지원합니다.
    • 지식 탐색: 연구원이 요약을 생성하거나 특정 주제에 관한 질문에 답하여 대량의 텍스트를 탐색하는 데 도움이 됩니다.

이점

출시 시점을 기준으로 이 모델 제품군은 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 개방형 대규모 언어 모델 구현을 유사한 크기의 모델에 비해 제공합니다.

이 문서에 설명된 벤치마크 평가 측정항목을 사용하여 이러한 모델은 비슷한 크기의 다른 개방형 모델 대안에 비해 우수한 성능을 제공하는 것으로 나타났습니다.

특히 RecurrentGemma 모델은 Gemma 모델과 비슷한 성능을 달성하지만, 추론하는 동안 더 빠르고 특히 긴 시퀀스에서 더 적은 메모리를 필요로 합니다.