Gemma 공개 모델

Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술로 빌드된 경량의 최첨단 개방형 모델 제품군입니다.

Gemma models 로고

책임감 있는 설계

포괄적인 안전 조치가 통합된 이러한 모델은 선별된 데이터 세트와 엄격한 조정을 통해 책임감 있고 신뢰할 수 있는 AI 솔루션을 보장하는 데 도움이 됩니다.

Gemma models 로고

크기 측면에서 타의 추종을 불허하는 성능

Gemma 모델은 2B 및 7B 크기에서 탁월한 벤치마크 결과를 얻었으며 일부 대형 공개 모델보다도 뛰어난 성능을 발휘합니다.

Gemma models 로고

프레임워크 유연성

Keras 3.0을 사용하면 JAX, TensorFlow, PyTorch와 원활하게 호환되므로 작업에 따라 프레임워크를 손쉽게 선택하고 전환할 수 있습니다.

벤치마크

젬마는 Llama 2 및 Mistral 7B와 같은 인기 모델과 비교하여 최신 사이즈 성능의 새로운 기준을 세웠습니다.

5샷, 상위 1개

MMLU

MMLU 벤치마크는 사전 학습 중에 대규모 언어 모델에서 획득한 폭넓은 지식과 문제 해결 능력을 측정하는 테스트입니다.

제로샷

HellaSwag

HellaSwag 벤치마크는 이야기의 가장 논리적인 결말을 선택하여 상식적인 추론을 이해하고 적용하는 언어 모델의 능력에 도전합니다.

제로샷

PIQA

PIQA 벤치마크는 일상적인 물리적 상호작용에 관한 질문에 답하여 물리적 상식 지식을 이해하고 적용할 수 있는 언어 모델의 능력을 테스트합니다.

제로샷

SIQA

SIQA 벤치마크는 사람들의 행동과 사회적 영향에 대한 질문을 함으로써 언어 모델의 사회적 상호작용과 사회적 상식에 대한 이해도를 평가합니다.

제로샷

부울

BoolQ 벤치마크는 예/아니요 질문에 자연적으로 발생하는 (메시지가 표시되지 않고 제한되지 않은 설정에서 생성됨) 질문에 대답하는 언어 모델의 기능을 테스트하여 실제 자연어 추론 작업을 수행할 수 있는 모델의 기능을 테스트합니다.

부분 점수

위노그란데

Winogrande 벤치마크는 바이너리 옵션으로 모호한 빈칸 채우기 작업을 해결하는 언어 모델의 기능을 테스트하며, 일반화된 상식적인 추론이 필요합니다.

7샷

최고 품질보증

CQA 벤치마크는 다양한 유형의 상식 지식을 필요로 하는 객관식 질문 답변에서 언어 모델의 성능을 평가합니다.

OBQA

OBQA 벤치마크는 공개 도서 시험 후 모델링된 다단계 추론, 상식 지식, 서식 있는 텍스트 이해로 고급 질의응답을 수행하는 언어 모델의 능력을 평가합니다.

ARC-e

ARC-e 벤치마크는 진정한 초등학교 수준의 객관식 과학 질문을 통해 언어 모델의 고급 질의 응답 기술을 테스트합니다.

ARC-C

ARC-c 벤치마크는 ARC-e 데이터 세트의 좀 더 집중된 하위 집합으로, 일반적인 (검색 기반 및 단어 공존) 알고리즘에서 잘못 답변한 질문만 포함되어 있습니다.

5장

TriviaQA

TriviaQA 벤치마크는 질문-답변-증거를 3배로 활용하여 읽기 능력을 테스트합니다.

패스@1

HumanEval

HumanEval 벤치마크는 솔루션이 프로그래밍 문제에 대한 기능 단위 테스트를 통과하는지 평가하여 언어 모델의 코드 생성 기능을 테스트합니다.

3장

MBPP

MBPP 벤치마크는 기본적인 프로그래밍 개념과 표준 라이브러리 사용에 중점을 두고 기본적인 Python 프로그래밍 문제를 해결하는 언어 모델의 기능을 테스트합니다.

maj@1님

GSM8K

GSM8K 벤치마크는 여러 단계의 추론이 필요한 초등학교 수준의 수학 문제를 해결하는 언어 모델의 능력을 테스트합니다.

4장

MATH

MATH 벤치마크는 추론, 다단계 문제 해결, 수학적 개념에 대한 이해가 필요한 복잡한 수학적 단어 문제를 해결하는 언어 모델의 능력을 평가합니다.

AGIEval

AGIEval 벤치마크는 인간의 지적 능력 (대학 입학 시험, 법무 시험 등)을 평가하기 위해 고안된 실제 시험에서 얻은 질문을 사용하여 언어 모델의 일반적인 지능을 테스트합니다.

BBH

BBH (BIG-Bench Hard) 벤치마크는 다양한 추론과 도메인 이해에 걸쳐 한계를 테스트하며 현재 언어 모델의 능력을 넘어서는 작업에 중점을 둡니다.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

70억

64.3

Gemma

2b

42.3

Mistral

70억

62.5리라

LLAMA-2

130억

54.8

LLAMA-2

70억

45.3리

Gemma

70억

81,200원

Gemma

2b

71.4리

Mistral

70억

81.0

LLAMA-2

130억

80.7리라

LLAMA-2

70억

77.2

Gemma

70억

81,200원

Gemma

2b

77.3리

Mistral

70억

82.2

LLAMA-2

130억

80.5리라

LLAMA-2

70억

78.8리라

Gemma

70억

51.8리라

Gemma

2b

49.7

Mistral

70억

47.0*

LLAMA-2

130억

50.3리라

LLAMA-2

70억

48.3

Gemma

70억

8,320

Gemma

2b

6,942만

Mistral

70억

83.2*

LLAMA-2

130억

81.7

LLAMA-2

70억

77.4

Gemma

70억

72.3리

Gemma

2b

65.4리

Mistral

70억

74.2

LLAMA-2

130억

72.8리라

LLAMA-2

70억

69.2

Gemma

70억

71,300원

Gemma

2b

65.3리

Mistral

70억

66.3*

LLAMA-2

130억

67.3리

LLAMA-2

70억

57.8리라

Gemma

70억

52.8리라

Gemma

2b

47.8리라

Mistral

70억

52.2명

LLAMA-2

130억

57.0

LLAMA-2

70억

58.6

Gemma

70억

81.5

Gemma

2b

7,320만

Mistral

70억

80.5리라

LLAMA-2

130억

77.3리

LLAMA-2

70억

75,200원

Gemma

70억

5,320만

Gemma

2b

4,206만

Mistral

70억

54.9리라

LLAMA-2

130억

49.4리

LLAMA-2

70억

45.9

Gemma

70억

63.4

Gemma

2b

5,320만

Mistral

70억

62.5리라

LLAMA-2

130억

79.6

LLAMA-2

70억

72.1리라

Gemma

70억

3,230만

Gemma

2b

22.0

Mistral

70억

2,620만

LLAMA-2

130억

1,830만

LLAMA-2

70억

12.8

Gemma

70억

44.4

Gemma

2b

29.2

Mistral

70억

40.2*

LLAMA-2

130억

30.6

LLAMA-2

70억

2,080만

Gemma

70억

46.4리

Gemma

2b

17.7

Mistral

70억

35.4*

LLAMA-2

130억

28.7

LLAMA-2

70억

1,460만

Gemma

70억

2,430만

Gemma

2b

11.8

Mistral

70억

12.7

LLAMA-2

130억

3.9

LLAMA-2

70억

2.5

Gemma

70억

41.7

Gemma

2b

24.2

Mistral

70억

41.2*

LLAMA-2

130억

3,910만

LLAMA-2

70억

2,930만

Gemma

70억

55.1

Gemma

2b

35,200원

Mistral

70억

56.1*

LLAMA-2

130억

3,940만

LLAMA-2

70억

32.6

*다른 방법론의 성능에 대한 자세한 내용은 기술 보고서를 참조하세요.

책임감 있는 AI 개발

책임 중심 설계

세심하게 선별된 데이터에 대해 선행 학습되고 무엇보다 안전에 중점을 두고 조정되어 Gemma 모델을 기반으로 안전하고 책임감 있는 AI 개발을 지원합니다.

강력하고 투명한 평가

포괄적인 평가와 투명한 보고를 통해 모델 제한 사항을 밝혀 각 사용 사례에 대해 책임감 있는 접근 방식을 채택합니다.

책임감 있는 개발 지원

책임감 있는 생성형 AI 툴킷은 개발자가 책임감 있는 AI 권장사항을 설계하고 구현할 수 있도록 지원합니다.

Google Cloud 아이콘

Google Cloud에 최적화

Google Cloud에서 Gemma 모델을 사용하면 Vertex AI의 완전 관리형 도구 또는 GKE의 자체 관리형 옵션을 통해 모델을 특정 니즈에 맞게 심층적으로 맞춤설정하고 유연하고 비용 효율적인 AI 최적화 인프라에 배포할 수 있습니다.

Google Cloud 크레딧으로 학술 연구 가속화

Academic Research Program은 최근 Gemma 모델을 사용하여 과학적 발견의 한계를 뛰어넘는 연구원을 지원하기 위해 Google Cloud 크레딧을 지급하는 신청 기간을 마무리했습니다. Google은 이 이니셔티브를 통해 획기적인 연구 결과를 보게 되어 기쁘게 생각합니다.

Google Cloud와 함께 연구를 발전시킬 수 있는 기회도 기대해 주세요.

커뮤니티 참여하기

ML 모델 커뮤니티에서 다른 사용자와 소통하고, 탐색하고, 지식을 공유하세요.

ML 엔지니어를 위한 최고의 AI 어시스턴트를 빌드하기 위한 경쟁

Kaggle은 Gemma 모델을 사용해 ML 엔지니어링 작업을 위한 최고의 AI 어시스턴트를 빌드하는 경연 대회를 주최하고 있습니다. 수상 기업은 Google I/O에서 발표됩니다.

대회 참여
Kaggle 경연 트로피