Gemma 2 모델 카드

모델 페이지: Gemma

리소스 및 기술 문서:

이용약관: 약관

작성자: Google

모델 정보

입력과 출력에 대한 요약 설명 및 간략한 정의입니다.

설명

Gemma는 Google의 최첨단 경량 개방형 모델 제품군입니다. AI는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구와 기술을 바탕으로 합니다 이 모델은 텍스트 대 텍스트 변환, 디코더 전용 대규모 언어 모델로, 영어로 제공되며 선행 학습된 변형과 명령이 조정된 변형 모두에 대해 개방형 가중치를 사용합니다. Gemma 모델은 다음과 같은 다양한 텍스트 생성 작업에 적합합니다. 질문 답변, 요약, 추론입니다. 비교적 크기가 작습니다. 다음과 같은 제한된 리소스가 있는 환경에 애플리케이션을 배포할 수 있습니다. 노트북, 데스크톱 또는 자체 클라우드 인프라를 활용하여 모든 사람을 위한 혁신 촉진을 지원하고 있습니다.

입력 및 출력

  • 입력: 실행할 질문, 프롬프트, 문서와 같은 텍스트 문자열 요약해 보겠습니다
  • 출력: 입력에 대한 응답으로 생성된 영어 텍스트입니다. 질문 또는 문서의 요약으로 표시할 수 있습니다

인용

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

모델 데이터

모델 학습에 사용되는 데이터 및 데이터 처리 방식

학습 데이터 세트

이러한 모델은 광범위한 텍스트 데이터 세트로 학습되었으며 있습니다. 270억 개의 모델은 13조 개의 토큰으로 학습되었으며, 90억 개의 모델은 8조 토큰으로 학습시켰고 20억 개의 모델은 2조 개의 토큰으로 학습되었습니다. 주요 구성요소는 다음과 같습니다.

  • 웹 문서: 다양한 웹 텍스트 컬렉션으로 모델 노출 보장 언어 스타일, 주제, 어휘를 폭넓게 학습시키고 있습니다 주로 영어 콘텐츠
  • 코드: 모델을 코드에 노출하면 모델의 구문과 패턴을 학습하여 이를 통해 코드 또는 프로그래밍 언어를 생성할 수 있는 능력을 코드 관련 질문을 이해할 수 있습니다
  • 수학: 수학 텍스트를 학습하면 모델이 논리적인 해석하고 수학적 쿼리를 처리하는 데 사용할 수 있습니다.

이러한 다양한 데이터 소스의 조합은 다양한 작업과 텍스트를 처리할 수 있는 언어 모델을 합니다.

데이터 전처리

학습에 적용되는 주요 데이터 정리 및 필터링 방법 데이터:

  • CSAM 필터링: 이전 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링 데이터 준비 프로세스의 여러 단계에서 적용하여 유해하고 불법적인 콘텐츠 배제
  • 민감한 정보 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있고 자동화된 기법을 사용하여 민감한 정보와 관련된 정보를 포함할 수 있습니다.
  • 추가 방법: Google 정책을 준수해야 합니다.

구현 정보

모델 내부 요소에 대한 세부정보입니다.

하드웨어

Gemma는 최신 세대의 인공지능을 사용하여 Tensor Processing Unit (TPU) 하드웨어 (TPUv5p).

대규모 언어 모델을 학습시키려면 상당한 컴퓨팅 성능이 필요합니다. TPU, 머신러닝에서 일반적으로 사용되는 행렬 작업을 위해 특별히 설계된 이 영역의 몇 가지 장점은 다음과 같습니다.

  • 성능: TPU는 대규모 연산을 처리하도록 특별히 설계되었습니다. 관여하고 있습니다. 다른 컴퓨팅 모델에 비해 학습 속도를 CPU.
  • 메모리: TPU에는 많은 양의 고대역폭 메모리가 제공되므로 학습 중 대규모 모델 및 배치 크기를 처리하는 데 적합합니다. 이렇게 하면 모델 품질을 개선할 수 있습니다
  • 확장성: TPU Pod (대규모 TPU 클러스터)는 점점 더 복잡해지는 기반 모델의 복잡성을 처리합니다 배포 가능한 보다 빠르고 효율적인 처리를 위해 여러 TPU 기기에서 학습을 진행할 수 있습니다.
  • 비용 효율성: 많은 시나리오에서 TPU가 보다 비용 효율적인 대규모 모델 학습을 위한 솔루션인 CPU 기반 인프라와 비교했을 때 특히 데이터 처리 시간 단축으로 인해 절감된 시간과 리소스를 고려할 때 Vertex AI Feature Store에서 제공되는
  • 이러한 이점은 지속 가능한 운영을 위한 Google의 노력

소프트웨어

교육은 JAXML Pathways를 사용해 진행되었습니다.

JAX를 사용하면 연구원들은 보다 빠르고 효율적으로 대규모 모델을 학습시킬 수 있습니다.

ML Pathways는 인공지능 시스템을 구축하기 위한 Google의 최신 노력입니다 여러 태스크에 걸쳐 일반화할 수 있는 능력이 있습니다. 이는 특히 기반 모델과 같은 대규모 언어 모델(예: 확인할 수 있습니다

JAX와 ML Pathway는 Gemini 모델 제품군에 대한 백서 "the 'single 컨트롤러입니다 Jax와 Pathways의 프로그래밍 모델이 결합되어 전체 교육 실행을 오케스트레이션하여 있습니다."

평가

모델 평가 측정항목 및 결과

벤치마킹 결과

이러한 모델은 다양한 데이터 세트와 측정항목을 살펴보겠습니다.

벤치마크 측정항목 Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5샷, 탑1 51.3 71.3 75.2
HellaSwag 10샷 73.0 81.9 86.4
PIQA 제로샷 77.8 81.7 83.2
SocialIQA 제로샷 51.9 53.4 53.7
BoolQ 제로샷 72.5 84.2 84.8
WinoGrande 부분 점수 70.9 80.6 83.7
ARC-e 제로샷 80.1 88.0 88.6
ARC-c 25샷 55.4 68.4 71.4
TriviaQA 5샷 59.4 76.6 83.7
자연스러운 질문 5샷 16.7 29.2 34.5
HumanEval 1번 인증 17.7 40.2 51.8
MBPP 3샷 29.6 52.4 62.6
GSM8K 5샷, maj@1 23.9 68.6 74.0
MATH 4샷 15.0 36.6 42.3
AGIEval 3-5샷 30.6 52.8 55.1
DROP 3장, F1 52.0 69.4 72.2
빅벤치 3샷, CoT 41.9 68.2 74.9

윤리 및 안전

윤리 및 안전 평가 접근 방식 및 결과

평가 접근 방식

Google의 평가 방법에는 구조화된 평가와 내부 레드팀 구성이 포함됩니다. 관련 콘텐츠 정책 테스트 레드팀은 목표와 인적 평가 측정항목이 서로 다른 팀들입니다. 이러한 다양한 카테고리에 대해 모델이 평가되어 윤리 및 안전을 포함한

  • 텍스트 간 콘텐츠 안전성: 안전을 다루는 프롬프트에 대한 검토자의 평가 아동 성적 학대 및 착취, 괴롭힘, 폭력 등의 정책 증오심 표현, 유혈 콘텐츠 등이 있죠
  • 텍스트 대 텍스트 표현 피해: 관련 학계를 기준으로 한 업계 기준치 WinoBias, BBQ 데이터 세트와 같은 데이터 세트에서 처리됩니다.
  • 기억: 다음을 포함한 학습 데이터 기억의 자동 평가 위험을 줄일 수 있습니다
  • 대규모 피해: '위험한 기능' 테스트 화학물질, 생물학적, 방사능, 핵 (CBRN)의 위험과 관련해서는 안 됩니다.

평가 결과

윤리 및 안전성 평가의 결과가 허용 가능한 기준점 내에 있음 : 자녀 보호와 같은 카테고리에 대한 내부 정책 준수 안전, 콘텐츠 안전, 표현적 피해, 암기, 대규모 피해 등이 포함됩니다. 강력한 내부 평가 외에도 잘 알려진 안전의 결과는 BBQ, BOLD, Winogender, Winobias, RealToxicity, TruthfulQA 등의 업계 기준치 여기에 나와 있습니다

Gemma 2.0

벤치마크 측정항목 Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity 평균 8월 16일 8:25 8.84
크라우드 페어 top-1 37.67 37.47 36.67
BBQ 암빅 원샷, 탑1 83.20 88.58 85.99달러
BBQ 식별 top-1 69:31 82.67 86.94
와이노젠더 top-1 52.91 79.17 77:22
TruthfulQA 43.72 50.27 51.60
위노비아스 1_2 59:28 78.09 81.94
위노비아스 2_2 88.57 95.32 97.22
Toxigen 48:32 39:30 38.42

위험 능력 평가

평가 접근 방식

Google에서는 다음과 같이 다양한 위험한 역량을 평가했습니다.

  • 공격적인 사이버 보안: 공격적인 사이버 보안에서 모델이 오용될 가능성을 사이버 보안 컨텍스트와 관련하여 Google은 공개적으로 사용 가능한 InterCode-CTF 및 Hack the Box와 같은 CTF (Capture-the-Flag) 플랫폼은 내부에서 개발한 CTF 과제도 포함됩니다. 이러한 평가는 취약점을 악용하여 무단 액세스 권한을 확보하는 능력 시뮬레이션된 환경입니다.
  • 자체확산: 리소스 확보, 코드 작성, 코드 생성과 관련된 작업을 설계함으로써 실행 및 원격 시스템과의 상호 작용을 지원합니다. 이러한 평가는 모델이 독립적으로 복제 및 확산할 수 있는 능력이 있음을 의미합니다.
  • 설득: 모델의 설득 능력 및 설득력을 평가합니다. 인간 설득 연구를 수행했습니다. 이러한 연구는 친밀감을 쌓고 고객에게 영향을 미치는 모델의 능력을 참가자들로부터 특정한 행동을 이끌어낼 수 있습니다.

평가 결과

모든 평가는 다음에 자세히 설명되어 있습니다. 위험한 역량을 위한 프론티어 모델 평가 요약하자면 Gemma 2 기술 보고서.

평가 역량 Gemma 2 IT 27B
InterCode-CTF 공격적인 사이버 보안 34시간 365일 챌린지
내부 CTF 공격적인 사이버 보안 1/13 챌린지
박스 해킹 공격적인 사이버 보안 0/13 챌린지
자가 확산 조기 경고 자가 증식 1/10 도전
불쾌감을 주는 매력 설득 동의하는 참가자 비율: 81% 흥미롭습니다. 75% 는 다시 말을 하고 80% 가 개인적인 친분을 쌓음
링크 클릭 설득 참가자의 34%
정보 찾기 설득 참가자의 9%
코드 실행 설득 참가자의 11%
돈 이야기 설득 £3.72는 기부금을 의미함
거짓말의 망 설득 18% 는 올바른 믿음으로 향한 전환을, 1% 는 올바른 믿음으로 향하는 전환을 의미합니다. 잘못된 신념

사용 및 제한사항

이러한 모델에는 사용자가 알아야 하는 특정 제한사항이 있습니다.

사용 목적

개방형 대규모 언어 모델 (LLM)은 분석해야 합니다 다음 잠재적 용도 목록은 있습니다. 이 목록의 목적은 문맥 정보를 제공하는 것입니다. 모델 제작자가 모델의 일부로 고려했던 사용 사례에 관한 학습 및 개발을 지원합니다

  • 콘텐츠 제작 및 커뮤니케이션
    • 텍스트 생성: 창의적인 텍스트 형식을 생성하는 데 사용할 수 있는 모델입니다. 시, 스크립트, 코드, 마케팅 카피, 이메일 초안 등이 있습니다.
    • 챗봇 및 대화형 AI: 고객을 위한 대화형 인터페이스 강화 대화형 애플리케이션으로 구성됩니다
    • 텍스트 요약: 텍스트 코퍼스, 연구 자료의 간결한 요약을 생성합니다. 논문, 보고서 등이 있습니다
  • 연구 및 교육
    • 자연어 처리(NLP) 연구: 이러한 모델은 자연어 처리(NLP)의 이 토대를 마련하여 NLP 기술을 실험하고 이 분야의 발전에 기여할 수 있습니다.
    • 언어 학습 도구: 양방향 언어 학습 환경을 지원합니다. 문법 교정이나 작문 연습을 지원합니다
    • 지식 탐색: 연구원의 대규모 텍스트 탐색 지원 특정 주제에 관한 질문에 답하거나 요약을 생성하는 방식으로 말이죠

제한사항

  • 학습 데이터
    • 학습 데이터의 품질과 다양성은 모델의 성능을 평가합니다. 학습 데이터에 편향이나 차이가 있으면 한계를 나타냅니다.
    • 학습 데이터 세트의 범위에 따라 모델이 가질 수 있는 주제 영역이 결정됩니다. 효과적으로 처리할 수 있습니다
  • 컨텍스트 및 태스크 복잡성
    • LLM은 명확한 프롬프트와 참조하세요. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
    • 모델 성능은 제공된 컨텍스트의 양에 영향을 받을 수 있음 (일반적으로 맥락이 길수록 특정 지점까지 더 나은 출력을 제공합니다.)
  • 언어의 모호성과 미묘한 차이
    • 자연어는 본질적으로 복잡합니다. LLM은 미세한 부분을 포착하는 데 어려움을 겪을 수 있음 미묘한 차이, 냉소, 비유의 표현
  • 사실의 정확성
    • LLM은 학습 과정에서 학습한 정보를 바탕으로 기술 자료는 아닙니다 이로 인해 사실에 근거한 진술이 포함될 수 있습니다.
  • 상식
    • LLM은 언어의 통계적 패턴에 의존합니다. 인코더-디코더 아키텍처를 특정 상황에서 상식적인 추론을 적용하는 데 도움이 됩니다.

윤리적 고려사항 및 위험

대규모 언어 모델 (LLM)의 개발로 인해 몇 가지 윤리적 우려가 제기되고 있습니다. Google은 개방형 모델을 만들 때 다음 사항을 신중하게 고려했습니다.

  • 편향과 공정성
    • 대규모의 실제 텍스트 데이터로 학습된 LLM은 사회 문화를 반영할 수 있음 학습 자료에 내재된 편향입니다. 이러한 모델은 신중한 정밀 조사, 입력 데이터 사전 처리 설명 및 사후 평가 이 카드에 보고됩니다.
  • 잘못된 정보 및 오용
    • LLM은 거짓이거나 오해의 소지가 있거나 유해한 텍스트를 생성하는 데 오용될 수 있습니다.
    • 모델을 책임감 있게 사용하기 위한 가이드라인이 제공됩니다. 자세한 내용은 책임감 있는 생성형 AI 툴킷.
  • 투명성 및 책임:
    • 이 모델 카드에는 모델의 아키텍처, 및 평가 프로세스를 숙지해야 합니다.
    • 책임감 있게 개발된 개방형 모델은 책임감 있는 AI를 개발자와 연구자가 LLM 기술에 액세스할 수 있도록 지원함으로써 살펴봤습니다

식별된 위험 및 완화 조치:

  • 편향은 지속됩니다. 편향을 지속적으로 모니터링해야 합니다. (평가 측정항목, 사람의 검토 사용) 및 탈편향 탐색 미세 조정 및 기타 사용 사례에서 다양한 기술을 활용할 수 있습니다.
  • 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘 및 가이드라인 필수적입니다 개발자는 주의를 기울이고 제품별 정책에 따라 적절한 콘텐츠 안전 보호 장치를 마련해야 합니다. 애플리케이션 사용 사례를 살펴보았습니다
  • 악의적인 목적의 오용: 기술적 제한, 개발자 및 최종 사용자 교육은 LLM의 악성 애플리케이션을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스 및 신고 메커니즘 확인할 수 있습니다 Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책.
  • 개인 정보 보호 위반: 개인 식별 정보 삭제를 위해 필터링된 데이터를 기준으로 모델을 학습시켰습니다. (개인 식별 정보). 개발자는 개인 정보 보호 규정을 준수하는 데 도움이 됩니다

이점

출시 시점을 기준으로 이 모델 제품군은 고성능 개방형 책임감 있는 AI를 위해 처음부터 설계된 대규모 언어 모델 구현 비슷한 규모의 모델과 비교한 AI 개발의 비중을 줄일 수 있습니다.

이 문서에 설명된 벤치마크 평가 측정항목을 사용하여 이러한 모델은 는 비슷한 크기의 다른 개방형 모델에 비해 뛰어난 성능을 제공하는 것으로 나타났습니다. 대안으로 사용할 수 있습니다.