RecurrentGemma 모델 카드

모델 페이지: RecurrentGemma

리소스 및 기술 문서:

이용약관: 약관

작성자: Google

모델 정보

모델 요약

설명

RecurrentGemma는 참신한 리커런트를 기반으로 한 개방형 언어 모델 제품군입니다. Google에서 개발한 아키텍처를 사용해 보세요 모두 사전 학습 및 안내 조정 버전이 영어로 제공됩니다

Gemma와 마찬가지로 RecurrentGemma 모델은 다양한 텍스트에 적합합니다. 질의 응답, 요약 및 추론을 포함한 생성 작업을 예로 들 수 있습니다. RecurrentGemma는 새로운 아키텍처로 인해, 비교적 적은 메모리를 필요로 합니다. Gemma는 긴 시퀀스를 생성할 때 추론 속도를 높입니다.

입력 및 출력

  • 입력: 표시할 텍스트 문자열 (예: 질문, 프롬프트 또는 문서) 요약).
  • 출력: 입력에 대한 응답으로 생성된 영어 텍스트입니다 (예: 질문에 대한 답변, 문서 요약).

인용

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

모델 데이터

학습 데이터 세트 및 데이터 처리

RecurrentGemma는 Gemma 모델군입니다. 자세한 설명은 Gemma 모델에서 확인할 수 있습니다. 카드를 참고하세요.

구현 정보

학습 중에 사용되는 하드웨어 및 프레임워크

좋아요 Gemma, RecurrentGemma는 TPUv5e JAXML 사용 과정.

평가 정보

벤치마크 결과

평가 방식

이러한 모델은 다양한 데이터 세트와 측정항목을 살펴보겠습니다.

평가 결과

벤치마크 측정항목 RecurrentGemma 2B RecurrentGemma 9B
MMLU 5샷, 탑1 38.4 60.5
HellaSwag 제로샷 71.0 80.4
PIQA 제로샷 78.5 81.3
SocialIQA 제로샷 51.8 52.3
BoolQ 제로샷 71.3 80.3
WinoGrande 부분 점수 67.8 73.6
CommonsenseQA 7샷 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5샷 52.5 70.5
자연스러운 질문 5샷 11.5 21.7
HumanEval 1번 인증 21.3 31.1
MBPP 3샷 28.8 42.0
GSM8K 메이저@1 13.4명 42.6
MATH 4샷 11.0 23.8
AGIEval 23.8 39.3
빅벤치 35.3 55.2
평균 44.6 56.1

윤리 및 안전

윤리 및 안전 평가

평가 접근 방식

Google의 평가 방법에는 구조화된 평가와 내부 레드팀 구성이 포함됩니다. 관련 콘텐츠 정책 테스트 레드팀은 목표와 인적 평가 측정항목이 서로 다른 팀들입니다. 이러한 다양한 카테고리에 대해 모델이 평가되어 윤리 및 안전을 포함한

  • 텍스트 간 콘텐츠 안전성: 안전을 다루는 프롬프트에 대한 검토자의 직접 평가 아동 성적 학대 및 착취, 괴롭힘, 폭력 등의 정책 증오심 표현, 유혈 콘텐츠 등이 있죠
  • 텍스트 간 표현에 미치는 피해: 관련 학술 벤치마크를 기준으로 한 기준 WinoBias, BBQ 데이터 세트 등의 데이터 세트에 대해 배웠습니다
  • 기억: 학습 데이터 기억에 대한 자동화된 평가 위험을 포함한 모든 개인 식별 정보 유출 위험을 예로 들 수 있습니다
  • 대규모 피해: 화학물질이나 생물학적, 방사선, 핵 (CBRN) 위험 GCP 콘솔 및 설득 및 사기, 사이버 보안, 자율 복제입니다.

평가 결과

윤리 및 안전성 평가의 결과가 허용 가능한 기준점 내에 있음 (내부 회의용) 정책 아동 안전, 콘텐츠 안전, 표현에 대한 피해, 큰 피해를 입힐 수 있습니다 강력한 내부 평가 외에도 BBQ, Winogender, WinoBias, RealToxicity 및 TruthfulQA가 여기에 표시됩니다.

벤치마크 측정항목 RecurrentGemma 2B RecurrentGemma 20억 IT RecurrentGemma 9B RecurrentGemma 90억 IT
RealToxicity 평균 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
크라우드 페어 top-1 41.1 43.4 38.7 39.5
BBQ 암빅 top-1 62.6 71.1 95.9명 67.1
BBQ 식별 top-1 58.4 50.8 78.6 78.9
와이노젠더 top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 만 56.4세 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

모델 사용 및 제한사항

알려진 제한사항

이러한 모델에는 사용자가 알아야 할 몇 가지 제한사항이 있습니다.

  • 학습 데이터
    • 학습 데이터의 품질과 다양성은 모델의 성능을 조정하는 역할을 합니다 학습 데이터의 편향이나 격차로 인해 한계에 도달하도록 모델을 학습시킬 수 있습니다
    • 학습 데이터 세트의 범위에 따라 모델의 주제 영역이 결정됩니다. 효과적으로 처리할 수 있습니다
  • 컨텍스트 및 태스크 복잡성
    • LLM은 명확한 프롬프트와 참조하세요. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 모델의 성능은 컨텍스트의 양에 영향을 받을 수 있습니다. 맥락이 길수록 일반적으로 최종 출력보다 특정 지점)으로 이동합니다.
  • 언어의 모호함 및 미묘한 차이
    • 자연어는 본질적으로 복잡합니다. 대규모 언어 모델(LLM)은 개념을 이해하는 데 미묘한 뉘앙스, 풍자, 상징어
  • 사실 정확성
    • LLM은 학습 과정에서 학습한 정보를 바탕으로 기술 자료는 아닙니다 이로 인해 사실에 근거한 진술이 포함될 수 있습니다.
  • 상식
    • LLM은 언어의 통계적 패턴에 의존합니다. 그들은 특정 상황에서 상식적인 추론을 적용하는 능력입니다.

윤리적 고려사항 및 위험

대규모 언어 모델 (LLM)의 개발로 인해 몇 가지 윤리적 우려가 제기되고 있습니다. Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편향 및 공정성
    • 대규모의 실제 텍스트 데이터로 학습된 LLM은 사회문화적 편견을 발견해야 한다는 것입니다 이러한 모델은 세심한 조사를 거쳤고 입력 데이터 사전 처리와 사후 평가를 확인할 수 있습니다
  • 잘못된 정보 및 오용
    • LLM은 거짓이거나 오해의 소지가 있거나 오해의 소지가 있는 텍스트를 생성하는 데 오용될 수 있습니다. 유해할 수 있습니다.
    • 모델을 책임감 있게 사용하기 위한 가이드라인이 제공됩니다. 자세한 내용은 책임감 있는 생성형 AI 툴킷에 대해 자세히 알아보세요.
  • 투명성 및 책임
    • 이 모델 카드에는 모델의 아키텍처, 및 평가 프로세스를 숙지해야 합니다.
    • 책임감 있게 개발된 개방형 모델은 책임감 있는 AI를 혁신을 이루도록 지원함으로써 연구자들과 협업하기 시작했습니다.

식별된 위험 및 완화:

  • 편향의 지속: 편향을 지속적으로 모니터링하는 것이 좋습니다. (평가 측정항목, 사람의 검토 사용) 및 탈편향 탐색 미세 조정 및 기타 사용 사례에서 다양한 기술을 활용할 수 있습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 메커니즘 및 가이드라인 안전은 매우 중요합니다 개발자는 주의를 기울이고 콘텐츠 안전 장치의 구체적인 보호 장치를 애플리케이션 사용 사례를 살펴보겠습니다
  • 악의적인 목적의 오용: 기술적 제한, 개발자 및 최종 사용자 교육은 LLM의 악성 애플리케이션을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스 및 신고 메커니즘 확인할 수 있습니다 Gemma 모델의 금지된 사용은 Google의 사용합니다.
  • 개인 정보 보호 위반: PII (개인 식별 정보). 개발자는 개인 정보를 보호하는 기술을 사용하여 개인 정보 보호 규정을 준수합니다.

사용 목적

애플리케이션

개방형 대규모 언어 모델 (LLM)은 분석해야 합니다 다음 잠재적 용도 목록은 있습니다. 이 목록의 목적은 문맥 정보를 제공하는 것입니다. 모델 제작자가 모델의 일부로 고려했던 사용 사례에 관한 학습 및 개발을 지원합니다

  • 콘텐츠 제작 및 커뮤니케이션
    • 텍스트 생성: 이러한 모델은 광고 소재 텍스트를 생성하는 데 사용할 수 있습니다. 시, 스크립트, 코드, 마케팅 카피, 이메일 초안 등과 같은 형식을 사용할 수도 있습니다.
    • 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션입니다.
    • 텍스트 요약: 텍스트 코퍼스의 간결한 요약을 생성합니다. 연구 논문, 보고서 등이 있습니다.
  • 연구 및 교육
    • 자연어 처리 (NLP) 연구: 이러한 모델은 연구자들이 NLP 기술을 실험할 수 있는 토대가 되었습니다. 알고리즘을 개발하고 분야의 발전에 기여합니다
    • 언어 학습 도구: 양방향 언어 학습 지원 문법 교정이나 작문 연습을 지원합니다
    • 지식 탐구: 연구자들이 거대 생물을 탐구하도록 지원 특정 텍스트에 대한 요약이나 질문에 답하여 참조하세요

이점

출시 시점을 기준으로 이 모델 제품군은 고성능 개방형 책임감 있는 AI를 위해 처음부터 설계된 대규모 언어 모델 구현 비슷한 규모의 모델과 비교한 AI 개발의 비중을 줄일 수 있습니다.

이 문서에 설명된 벤치마크 평가 측정항목을 사용하여 이러한 모델은 는 비슷한 크기의 다른 개방형 모델에 비해 뛰어난 성능을 제공하는 것으로 나타났습니다. 대안으로 사용할 수 있습니다.

특히 RecurrentGemma 모델은 Gemma와 비슷한 성능을 얻습니다. 특히 추론 과정에서 더 빠르고 메모리 필요성이 더 적으며, 학습합니다.