모델 페이지: Gemma
리소스 및 기술 문서:
이용약관: 약관
저자: Google
모델 정보
입력 및 출력의 요약 설명과 간단한 정의입니다.
설명
Gemma는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술로 빌드된 최첨단 경량 개방형 모델군입니다. 텍스트 대 텍스트, 디코더 전용 대규모 언어 모델로, 영어로 제공되며 공개 가중치, 사전 학습된 변형, 명령어 조정된 변형이 있습니다. Gemma 모델은 질문 답변, 요약, 추론을 비롯한 다양한 텍스트 생성 작업에 적합합니다. 비교적 작은 크기로 인해 노트북, 데스크톱 또는 자체 클라우드 인프라와 같이 리소스가 제한된 환경에 배포할 수 있으므로 최신 AI 모델에 대한 액세스를 민주화하고 모든 사용자의 혁신을 촉진할 수 있습니다.
입력 및 출력
- 입력: 요약할 질문, 프롬프트 또는 문서와 같은 텍스트 문자열입니다.
- 출력: 입력에 대한 응답으로 생성된 영어 텍스트(예: 질문에 대한 답변 또는 문서 요약)입니다.
인용
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
year={2024}
}
모델 데이터
모델 학습에 사용된 데이터 및 데이터가 처리된 방식
학습 데이터 세트
이러한 모델은 총 6조 개 토큰의 다양한 소스가 포함된 텍스트 데이터 데이터 세트를 기반으로 학습되었습니다. 주요 구성요소는 다음과 같습니다.
- 웹 문서: 다양한 웹 텍스트 모음을 통해 모델이 다양한 언어 스타일, 주제, 어휘에 노출됩니다. 주로 영어 콘텐츠
- 코드: 모델을 코드에 노출하면 프로그래밍 언어의 문법과 패턴을 학습하는 데 도움이 되므로 코드를 생성하거나 코드 관련 질문을 이해하는 기능이 향상됩니다.
- 수학: 수학 텍스트에 관한 학습을 통해 모델이 논리적 추론, 기호 표현을 학습하고 수학적 쿼리를 처리할 수 있습니다.
이러한 다양한 데이터 소스를 조합하는 것은 다양한 태스크와 텍스트 형식을 처리할 수 있는 강력한 언어 모델을 학습하는 데 매우 중요합니다.
데이터 전처리
다음은 학습 데이터에 적용된 주요 데이터 정리 및 필터링 방법입니다.
- CSAM 필터링: 유해하고 불법적인 콘텐츠를 제외하기 위해 데이터 준비 프로세스의 여러 단계에서 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링이 적용되었습니다.
- 민감한 정보 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있게 만들기 위한 노력의 일환으로, 학습 세트에서 특정한 개인 정보와 기타 민감한 정보를 필터링하기 위한 자동화된 기술이 사용되었습니다.
- 추가 방법: YouTube 정책에 따라 콘텐츠 품질 및 안전을 기반으로 필터링합니다.
구현 정보
모델 내부 세부정보
하드웨어
Gemma는 최신 세대의 Tensor Processing Unit (TPU) 하드웨어 (TPUv5e)를 사용하여 학습되었습니다.
대규모 언어 모델을 학습시키려면 상당한 컴퓨팅 성능이 필요합니다. 머신러닝에서 흔히 사용되는 행렬 연산을 위해 특별히 설계된 TPU는 이 분야에서 다음과 같은 여러 이점을 제공합니다.
- 성능: TPU는 LLM 학습과 관련된 대규모 연산을 처리하도록 특별히 설계되었습니다. GPU는 CPU에 비해 학습 속도를 크게 높일 수 있습니다.
- 메모리: TPU에는 대용량의 고대역폭 메모리가 포함되어 있어 학습 중에 대규모 모델과 배치 크기를 처리할 수 있습니다. 이렇게 하면 모델 품질이 개선될 수 있습니다.
- 확장성: TPU 포드 (TPU의 대규모 클러스터)는 대규모 기반 모델의 증가하는 복잡성을 처리하기 위한 확장 가능한 솔루션을 제공합니다. 학습을 여러 TPU 기기에 분산하여 더 빠르고 효율적으로 처리할 수 있습니다.
- 비용 효율성: 많은 시나리오에서 TPU는 CPU 기반 인프라에 비해 대규모 모델 학습에 더 비용 효율적인 솔루션을 제공할 수 있습니다. 특히 더 빠른 학습으로 인해 절약되는 시간과 리소스를 고려할 때 그렇습니다.
- 이러한 이점은 지속적으로 운영하기 위한 Google의 노력과 일맥상통합니다.
소프트웨어
JAX 및 ML 개발자 과정을 사용하여 학습이 진행되었습니다.
JAX를 사용하면 연구원이 TPU를 비롯한 최신 하드웨어를 활용하여 대규모 모델을 더 빠르고 효율적으로 학습할 수 있습니다.
ML Pathways는 여러 작업에 걸쳐 일반화할 수 있는 인공지능 시스템을 구축하기 위한 Google의 최신 노력입니다. 이는 대규모 언어 모델과 같은 기초 모델에 특히 적합합니다.
JAX와 ML Pathways는 Gemini 모델 제품군에 관한 문서에 설명된 대로 함께 사용됩니다. 'JAX 및 Pathways의 '단일 컨트롤러' 프로그래밍 모델을 사용하면 단일 Python 프로세스가 전체 학습 실행을 조정할 수 있으므로 개발 워크플로가 크게 간소화됩니다.'
평가
모델 평가 측정항목 및 결과
벤치마크 결과
이러한 모델은 텍스트 생성의 다양한 측면을 다루기 위해 다양한 데이터 세트와 측정항목의 대규모 모음을 대상으로 평가되었습니다.
벤치마크 | 측정항목 | Gemma PT 2B | Gemma PT 7B |
---|---|---|---|
MMLU | 5-shot, top-1 | 42.3 | 64.3 |
HellaSwag | 제로샷 | 71.4 | 81.2 |
PIQA | 제로샷 | 77.3 | 81.2 |
SocialIQA | 제로샷 | 49.7 | 51.8 |
BoolQ | 제로샷 | 69.4 | 83.2 |
WinoGrande | 부분 점수 | 65.4 | 72.3 |
CommonsenseQA | 7샷 | 65.3 | 71.3 |
OpenBookQA | 47.8 | 52.8 | |
ARC-e | 73.2 | 81.5 | |
ARC-c | 42.1 | 53.2 | |
TriviaQA | 5샷 | 53.2 | 63.4 |
자연스러운 질문 | 5샷 | 12.5 | 23.0 |
HumanEval | pass@1 | 22.0 | 32.3 |
MBPP | 3샷 | 29.2 | 44.4 |
GSM8K | maj@1 | 17.7 | 46.4 |
MATH | 4샷 | 11.8 | 24.3 |
AGIEval | 24.2 | 41.7 | |
BIG-Bench | 35.2 | 55.1 | |
평균 | 44.9 | 56.4 |
윤리 및 안전
윤리 및 안전 평가 접근 방식 및 결과
평가 접근 방식
YouTube의 평가 방법에는 구조화된 평가와 관련 콘텐츠 정책에 대한 내부 레드 팀 테스트가 포함됩니다. 레드팀은 각각 서로 다른 목표와 인간 평가 측정항목을 가진 여러 팀에서 수행했습니다. 이러한 모델은 윤리 및 안전과 관련된 다양한 카테고리(예:
- 텍스트 대 텍스트 콘텐츠 안전: 아동 성적 학대 및 착취, 괴롭힘, 폭력 및 유혈 장면, 증오심 표현을 비롯한 안전 정책을 다루는 프롬프트에 대한 사람의 평가
- 텍스트 대 텍스트 표현적 해악: WinoBias 및 BBQ Dataset과 같은 관련 학술 데이터 세트를 기준으로 벤치마킹합니다.
- Memorization(암기): 개인 식별 정보 노출 위험을 비롯한 학습 데이터 암기의 자동화된 평가입니다.
- 대규모 피해: 화학, 생물학, 방사능, 핵 (CBRN) 위험과 같은 '위험한 기능' 테스트
평가 결과
윤리 및 안전 평가 결과가 아동 안전, 콘텐츠 안전, 표현적 해악, 암기, 대규모 해악과 같은 카테고리의 내부 정책을 충족하기 위한 허용 가능한 기준점 내에 있습니다. 강력한 내부 평가 외에도 BBQ, BOLD, Winogender, Winobias, RealToxicity, TruthfulQA와 같은 잘 알려진 안전 벤치마크의 결과가 여기에 표시됩니다.
Gemma 1.0
벤치마크 | 측정항목 | Gemma 1.0 IT 2B | Gemma 1.0 IT 7B |
---|---|---|---|
RealToxicity | 평균 | 6.86 | 7.90 |
BOLD | 45.57 | 49.08 | |
CrowS-Pairs | top-1 | 45.82 | 51.33 |
BBQ Ambig | 1-shot, top-1 | 62.58 | 92.54 |
BBQ Disambig | top-1 | 54.62 | 71.99 |
Winogender | top-1 | 51.25 | 54.17 |
TruthfulQA | 44.84 | 31.81 | |
Winobias 1_2 | 56.12 | 59.09 | |
Winobias 2_2 | 91.10 | 92.23 | |
Toxigen | 29.77 | 39.59 |
Gemma 1.1
벤치마크 | 측정항목 | Gemma 1.1 IT 2B | Gemma 1.1 IT 7B |
---|---|---|---|
RealToxicity | 평균 | 7.03 | 8.04 |
BOLD | 47.76 | ||
CrowS-Pairs | top-1 | 45.89 | 49.67 |
BBQ Ambig | 1-shot, top-1 | 58.97 | 86.06 |
BBQ Disambig | top-1 | 53.90 | 85.08 |
Winogender | top-1 | 50.14 | 57.64 |
TruthfulQA | 44.24 | 45.34 | |
Winobias 1_2 | 55.93 | 59.22 | |
Winobias 2_2 | 89.46 | 89.2 | |
Toxigen | 29.64 | 38.75 |
사용 및 제한사항
이러한 모델에는 사용자가 알고 있어야 하는 몇 가지 제한사항이 있습니다.
사용 목적
개방형 대규모 언어 모델 (LLM)은 다양한 산업과 도메인에서 광범위하게 적용됩니다. 다음은 가능한 사용 사례 목록이며, 이 목록에 포함되지 않은 사용 사례도 있습니다. 이 목록의 목적은 모델 제작자가 모델 학습 및 개발의 일부로 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다.
- 콘텐츠 제작 및 커뮤니케이션
- 텍스트 생성: 이러한 모델은 시, 스크립트, 코드, 마케팅 문구, 이메일 초안과 같은 광고소재 텍스트 형식을 생성하는 데 사용할 수 있습니다.
- 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 양방향 애플리케이션을 위한 대화형 인터페이스를 지원합니다.
- 텍스트 요약: 텍스트 자료, 연구 논문 또는 보고서의 간결한 요약을 생성합니다.
- 연구 및 교육
- 자연어 처리 (NLP) 연구: 이러한 모델은 연구원이 NLP 기술을 실험하고, 알고리즘을 개발하고, 이 분야의 발전에 기여할 수 있는 기반이 될 수 있습니다.
- 언어 학습 도구: 문법 교정이나 작문 연습을 지원하는 양방향 언어 학습 환경을 지원합니다.
- 지식 탐색: 요약을 생성하거나 특정 주제에 관한 질문에 답변하여 연구원이 방대한 양의 텍스트를 탐색하도록 지원합니다.
제한사항
- 학습 데이터
- 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터에 편향이나 격차가 있으면 모델의 대답이 제한될 수 있습니다.
- 학습 데이터 세트의 범위는 모델이 효과적으로 처리할 수 있는 주제 영역을 결정합니다.
- 컨텍스트 및 작업 복잡도
- LLM은 명확한 프롬프트와 안내로 구성할 수 있는 작업에 더 적합합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
- 모델의 성능은 제공된 컨텍스트의 양에 영향을 받을 수 있습니다(일반적으로 컨텍스트가 길수록 특정 지점까지 더 나은 출력이 나오지만).
- 언어의 모호성과 뉘앙스
- 자연어는 본질적으로 복잡합니다. LLM은 미묘한 뉘앙스, 빈정거림 또는 비유적인 표현을 파악하는 데 어려움을 겪을 수 있습니다.
- 사실 정확성
- LLM은 학습 데이터 세트에서 학습한 정보를 기반으로 대답을 생성하지만 기술 자료는 아닙니다. 잘못되거나 오래된 사실 진술을 생성할 수 있습니다.
- 상식
- LLM은 언어의 통계적 패턴을 사용합니다. 특정 상황에서 상식적인 추론을 적용하는 능력이 부족할 수 있습니다.
윤리적 고려사항 및 위험
대규모 언어 모델 (LLM)의 개발은 몇 가지 윤리적 문제를 제기합니다. Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.
- 편향 및 공정성
- 대규모 실제 텍스트 데이터를 바탕으로 학습된 LLM은 학습 자료에 삽입된 사회문화적 편향을 반영할 수 있습니다. 이러한 모델은 신중한 검토를 거쳤으며, 이 카드에 설명된 입력 데이터 사전 처리와 후속 평가를 거쳤습니다.
- 잘못된 정보 및 오용
- LLM은 잘못 사용하여 허위, 혼동을 야기하거나 유해한 텍스트를 생성할 수 있습니다.
- 모델을 책임감 있게 사용하는 방법에 관한 가이드라인은 책임감 있는 생성형 AI 툴킷을 참고하세요.
- 투명성 및 책임성:
- 이 모델 카드는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 관한 세부정보를 요약합니다.
- 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구원이 LLM 기술에 액세스할 수 있도록 함으로써 혁신을 공유할 수 있는 기회를 제공합니다.
식별된 위험 및 완화 조치:
- 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 지속적인 모니터링(평가 측정항목, 사람 검토 사용) 및 편향 제거 기법을 탐색하는 것이 좋습니다.
- 유해 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수적입니다. 개발자는 각별히 주의하고 특정 제품 정책 및 애플리케이션 사용 사례에 따라 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
- 악의적인 목적으로 오용: 기술적 제한사항과 개발자 및 최종 사용자 교육을 통해 LLM의 악의적인 적용을 완화할 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
- 개인 정보 침해: PII(개인 식별 정보)를 삭제하기 위해 필터링된 데이터로 모델을 학습했습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.
이점
출시 시 이 모델 제품군은 비슷한 크기의 모델에 비해 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 개방형 대규모 언어 모델 구현을 제공합니다.
이 문서에 설명된 벤치마크 평가 측정항목을 사용한 결과, 이러한 모델은 비슷한 크기의 다른 오픈 소스 모델 대안보다 우수한 성능을 제공하는 것으로 나타났습니다.