모델 페이지: RecurrentGemma
리소스 및 기술 문서:
이용약관: 약관
작성자: Google
모델 정보
모델 요약
설명
RecurrentGemma는 참신한 리커런트를 기반으로 한 개방형 언어 모델 제품군입니다. Google에서 개발한 아키텍처를 사용해 보세요 모두 사전 학습 및 안내 조정 버전이 영어로 제공됩니다
Gemma와 마찬가지로 RecurrentGemma 모델은 다양한 텍스트에 적합합니다. 질의 응답, 요약 및 추론을 포함한 생성 작업을 예로 들 수 있습니다. RecurrentGemma는 새로운 아키텍처로 인해, 비교적 적은 메모리를 필요로 합니다. Gemma는 긴 시퀀스를 생성할 때 추론 속도를 높입니다.
입력 및 출력
- 입력: 표시할 텍스트 문자열 (예: 질문, 프롬프트 또는 문서) 요약).
- 출력: 입력에 대한 응답으로 생성된 영어 텍스트입니다 (예: 질문에 대한 답변, 문서 요약).
인용
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
모델 데이터
학습 데이터 세트 및 데이터 처리
RecurrentGemma는 Gemma 모델군입니다. 자세한 설명은 Gemma 모델에서 확인할 수 있습니다. 카드를 참고하세요.
구현 정보
학습 중에 사용되는 하드웨어 및 프레임워크
좋아요 Gemma, RecurrentGemma는 TPUv5e JAX 및 ML 사용 과정.
평가 정보
벤치마크 결과
평가 방식
이러한 모델은 다양한 데이터 세트와 측정항목을 살펴보겠습니다.
평가 결과
벤치마크 | 측정항목 | RecurrentGemma 2B | RecurrentGemma 9B |
---|---|---|---|
MMLU | 5샷, 탑1 | 38.4 | 60.5 |
HellaSwag | 제로샷 | 71.0 | 80.4 |
PIQA | 제로샷 | 78.5 | 81.3 |
SocialIQA | 제로샷 | 51.8 | 52.3 |
BoolQ | 제로샷 | 71.3 | 80.3 |
WinoGrande | 부분 점수 | 67.8 | 73.6 |
CommonsenseQA | 7샷 | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-c | 42.3 | 52.0 | |
TriviaQA | 5샷 | 52.5 | 70.5 |
자연스러운 질문 | 5샷 | 11.5 | 21.7 |
HumanEval | 1번 인증 | 21.3 | 31.1 |
MBPP | 3샷 | 28.8 | 42.0 |
GSM8K | 메이저@1 | 13.4명 | 42.6 |
MATH | 4샷 | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
빅벤치 | 35.3 | 55.2 | |
평균 | 44.6 | 56.1 |
윤리 및 안전
윤리 및 안전 평가
평가 접근 방식
Google의 평가 방법에는 구조화된 평가와 내부 레드팀 구성이 포함됩니다. 관련 콘텐츠 정책 테스트 레드팀은 목표와 인적 평가 측정항목이 서로 다른 팀들입니다. 이러한 다양한 카테고리에 대해 모델이 평가되어 윤리 및 안전을 포함한
- 텍스트 간 콘텐츠 안전성: 안전을 다루는 프롬프트에 대한 검토자의 직접 평가 아동 성적 학대 및 착취, 괴롭힘, 폭력 등의 정책 증오심 표현, 유혈 콘텐츠 등이 있죠
- 텍스트 간 표현에 미치는 피해: 관련 학술 벤치마크를 기준으로 한 기준 WinoBias, BBQ 데이터 세트 등의 데이터 세트에 대해 배웠습니다
- 기억: 학습 데이터 기억에 대한 자동화된 평가 위험을 포함한 모든 개인 식별 정보 유출 위험을 예로 들 수 있습니다
- 대규모 피해: 화학물질이나 생물학적, 방사선, 핵 (CBRN) 위험 GCP 콘솔 및 설득 및 사기, 사이버 보안, 자율 복제입니다.
평가 결과
윤리 및 안전성 평가의 결과가 허용 가능한 기준점 내에 있음 (내부 회의용) 정책 아동 안전, 콘텐츠 안전, 표현에 대한 피해, 큰 피해를 입힐 수 있습니다 강력한 내부 평가 외에도 BBQ, Winogender, WinoBias, RealToxicity 및 TruthfulQA가 여기에 표시됩니다.
벤치마크 | 측정항목 | RecurrentGemma 2B | RecurrentGemma 20억 IT | RecurrentGemma 9B | RecurrentGemma 90억 IT |
---|---|---|---|---|---|
RealToxicity | 평균 | 9.8 | 7.60 | 10.3 | 8.8 |
BOLD | 39.3 | 52.3 | 39.8 | 47.9 | |
크라우드 페어 | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
BBQ 암빅 | top-1 | 62.6 | 71.1 | 95.9명 | 67.1 |
BBQ 식별 | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
와이노젠더 | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 만 56.4세 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
Toxigen | 56.7 | 50.0 | 58.8 | 64.5 |
모델 사용 및 제한사항
알려진 제한사항
이러한 모델에는 사용자가 알아야 할 몇 가지 제한사항이 있습니다.
- 학습 데이터
- 학습 데이터의 품질과 다양성은 모델의 성능을 조정하는 역할을 합니다 학습 데이터의 편향이나 격차로 인해 한계에 도달하도록 모델을 학습시킬 수 있습니다
- 학습 데이터 세트의 범위에 따라 모델의 주제 영역이 결정됩니다. 효과적으로 처리할 수 있습니다
- 컨텍스트 및 태스크 복잡성
- LLM은 명확한 프롬프트와 참조하세요. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
- 모델의 성능은 컨텍스트의 양에 영향을 받을 수 있습니다. 맥락이 길수록 일반적으로 최종 출력보다 특정 지점)으로 이동합니다.
- 언어의 모호함 및 미묘한 차이
- 자연어는 본질적으로 복잡합니다. 대규모 언어 모델(LLM)은 개념을 이해하는 데 미묘한 뉘앙스, 풍자, 상징어
- 사실 정확성
- LLM은 학습 과정에서 학습한 정보를 바탕으로 기술 자료는 아닙니다 이로 인해 사실에 근거한 진술이 포함될 수 있습니다.
- 상식
- LLM은 언어의 통계적 패턴에 의존합니다. 그들은 특정 상황에서 상식적인 추론을 적용하는 능력입니다.
윤리적 고려사항 및 위험
대규모 언어 모델 (LLM)의 개발로 인해 몇 가지 윤리적 우려가 제기되고 있습니다. Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.
- 편향 및 공정성
- 대규모의 실제 텍스트 데이터로 학습된 LLM은 사회문화적 편견을 발견해야 한다는 것입니다 이러한 모델은 세심한 조사를 거쳤고 입력 데이터 사전 처리와 사후 평가를 확인할 수 있습니다
- 잘못된 정보 및 오용
- LLM은 거짓이거나 오해의 소지가 있거나 오해의 소지가 있는 텍스트를 생성하는 데 오용될 수 있습니다. 유해할 수 있습니다.
- 모델을 책임감 있게 사용하기 위한 가이드라인이 제공됩니다. 자세한 내용은 책임감 있는 생성형 AI 툴킷에 대해 자세히 알아보세요.
- 투명성 및 책임
- 이 모델 카드에는 모델의 아키텍처, 및 평가 프로세스를 숙지해야 합니다.
- 책임감 있게 개발된 개방형 모델은 책임감 있는 AI를 혁신을 이루도록 지원함으로써 연구자들과 협업하기 시작했습니다.
식별된 위험 및 완화:
- 편향의 지속: 편향을 지속적으로 모니터링하는 것이 좋습니다. (평가 측정항목, 사람의 검토 사용) 및 탈편향 탐색 미세 조정 및 기타 사용 사례에서 다양한 기술을 활용할 수 있습니다.
- 유해한 콘텐츠 생성: 콘텐츠 메커니즘 및 가이드라인 안전은 매우 중요합니다 개발자는 주의를 기울이고 콘텐츠 안전 장치의 구체적인 보호 장치를 애플리케이션 사용 사례를 살펴보겠습니다
- 악의적인 목적의 오용: 기술적 제한, 개발자 및 최종 사용자 교육은 LLM의 악성 애플리케이션을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스 및 신고 메커니즘 확인할 수 있습니다 Gemma 모델의 금지된 사용은 Google의 사용합니다.
- 개인 정보 보호 위반: PII (개인 식별 정보). 개발자는 개인 정보를 보호하는 기술을 사용하여 개인 정보 보호 규정을 준수합니다.
사용 목적
애플리케이션
개방형 대규모 언어 모델 (LLM)은 분석해야 합니다 다음 잠재적 용도 목록은 있습니다. 이 목록의 목적은 문맥 정보를 제공하는 것입니다. 모델 제작자가 모델의 일부로 고려했던 사용 사례에 관한 학습 및 개발을 지원합니다
- 콘텐츠 제작 및 커뮤니케이션
- 텍스트 생성: 이러한 모델은 광고 소재 텍스트를 생성하는 데 사용할 수 있습니다. 시, 스크립트, 코드, 마케팅 카피, 이메일 초안 등과 같은 형식을 사용할 수도 있습니다.
- 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션입니다.
- 텍스트 요약: 텍스트 코퍼스의 간결한 요약을 생성합니다. 연구 논문, 보고서 등이 있습니다.
- 연구 및 교육
- 자연어 처리 (NLP) 연구: 이러한 모델은 연구자들이 NLP 기술을 실험할 수 있는 토대가 되었습니다. 알고리즘을 개발하고 분야의 발전에 기여합니다
- 언어 학습 도구: 양방향 언어 학습 지원 문법 교정이나 작문 연습을 지원합니다
- 지식 탐구: 연구자들이 거대 생물을 탐구하도록 지원 특정 텍스트에 대한 요약이나 질문에 답하여 참조하세요
이점
출시 시점을 기준으로 이 모델 제품군은 고성능 개방형 책임감 있는 AI를 위해 처음부터 설계된 대규모 언어 모델 구현 비슷한 규모의 모델과 비교한 AI 개발의 비중을 줄일 수 있습니다.
이 문서에 설명된 벤치마크 평가 측정항목을 사용하여 이러한 모델은 는 비슷한 크기의 다른 개방형 모델에 비해 뛰어난 성능을 제공하는 것으로 나타났습니다. 대안으로 사용할 수 있습니다.
특히 RecurrentGemma 모델은 Gemma와 비슷한 성능을 얻습니다. 특히 추론 과정에서 더 빠르고 메모리 필요성이 더 적으며, 학습합니다.