Gemma 모델을 실행할 때는 두 가지 주요 결정을 내려야 합니다. 1) 실행할 Gemma 변형과 2) 실행에 사용할 AI 실행 프레임워크입니다. 이 두 결정을 내리는 데 있어 중요한 문제는 모델을 실행하는 데 사용할 수 있는 하드웨어입니다.
이 개요는 이러한 결정을 내리고 Gemma 모델을 사용하기 시작하는 데 도움이 됩니다. Gemma 모델을 실행하는 일반적인 단계는 다음과 같습니다.
프레임워크 선택
Gemma 모델은 다양한 생성형 AI 실행 프레임워크와 호환됩니다. Gemma 모델을 실행할 때 중요한 의사결정 요소 중 하나는 모델을 실행하는 데 사용할 수 있는 컴퓨팅 리소스입니다. 대부분의 호환 가능한 AI 프레임워크는 Gemma 모델을 효과적으로 실행하기 위해 GPU 또는 TPU와 같은 특수 하드웨어가 필요합니다. Google Colab과 같은 도구는 이러한 특수 컴퓨팅 리소스를 제한적으로 제공할 수 있습니다. Ollama 및 Gemma.cpp와 같은 일부 AI 실행 프레임워크를 사용하면 x86 호환 또는 ARM 아키텍처를 사용하여 더 일반적인 CPU에서 Gemma를 실행할 수 있습니다.
다양한 AI 런타임 프레임워크로 Gemma 모델을 실행하는 가이드는 다음과 같습니다.
- Hugging Face Transformers
- Ollama
- JAX용 Gemma 라이브러리
- Keras
- PyTorch
- MediaPipe LLM 추론 API
- Gemma.cpp
- vLLM
- Google Cloud Vertex AI
- Google Cloud Kubernetes Engine (GKE)
- Google Cloud Run
선택한 프레임워크에서 의도한 배포 Gemma 모델 형식(예: Keras 네이티브 형식, Safetensors, GGUF)이 지원되는지 확인합니다.
Gemma 변형 선택
Gemma 모델은 기본 또는 코어 Gemma 모델, PaliGemma, DataGemma와 같은 특화된 모델 변형, Kaggle, Hugging Face와 같은 사이트에서 AI 개발자 커뮤니티가 만든 다양한 변형을 비롯한 여러 변형과 크기로 제공됩니다. 어떤 변형으로 시작해야 할지 잘 모르겠다면 파라미터 수가 가장 적은 최신 Gemma 코어 명령 튜닝 (IT) 모델을 선택하세요. 이 유형의 Gemma 모델은 컴퓨팅 요구사항이 낮으며 추가 개발 없이 다양한 프롬프트에 응답할 수 있습니다.
Gemma 변형을 선택할 때는 다음 요소를 고려하세요.
- Gemma 코어 및 기타 변형 제품군(예: PaliGemma, CodeGemma): Gemma(코어)를 추천합니다. 핵심 버전 이외의 Gemma 변형은 핵심 모델과 동일한 아키텍처를 가지며 특정 작업을 더 잘 수행하도록 학습됩니다. 애플리케이션이나 목표가 특정 Gemma 변형의 전문 분야와 일치하지 않는 한 Gemma 핵심 모델 또는 기본 모델로 시작하는 것이 좋습니다.
- 명령어 튜닝 (IT), 사전 학습 (PT), 미세 조정 (FT), 혼합(mix): IT를 추천합니다.
- 명령 조정 (IT) Gemma 변형은 인간 언어로 된 다양한 명령이나 요청에 응답하도록 학습된 모델입니다. 이러한 모델 변형은 추가 모델 학습 없이 프롬프트에 응답할 수 있으므로 시작하기에 가장 적합합니다.
- 사전 학습 (PT) Gemma 변형은 언어 또는 기타 데이터에 관한 추론을 하도록 학습되었지만 인간의 명령을 따르도록 학습되지 않은 모델입니다. 이러한 모델은 작업을 효과적으로 수행하기 위해 추가 학습이나 조정이 필요하며, 모델의 기능과 아키텍처를 연구하거나 개발하려는 연구자나 개발자를 대상으로 합니다.
- 미세 조정된 (FT) Gemma 변형은 IT 변형으로 간주할 수 있지만 일반적으로 특정 작업을 수행하거나 특정 생성형 AI 벤치마크에서 우수한 성능을 보이도록 학습됩니다. PaliGemma 변형 제품군에는 여러 FT 변형이 포함됩니다.
- 혼합 (mix) Gemma 변형은 다양한 명령어로 명령 튜닝되었으며 일반적인 용도에 적합한 PaliGemma 모델 버전입니다.
- 매개변수: 사용 가능한 가장 작은 수를 추천합니다. 일반적으로 모델에 파라미터가 많을수록 성능이 뛰어납니다. 하지만 모델이 클수록 더 크고 복잡한 컴퓨팅 리소스가 필요하며 일반적으로 AI 애플리케이션 개발 속도가 느려집니다. 더 작은 Gemma 모델이 요구사항을 충족할 수 없다고 이미 판단한 경우가 아니라면 파라미터 수가 적은 모델을 선택하세요.
- 양자화 수준: 튜닝을 제외하고 절반 정밀도 (16비트)를 권장합니다. 양자화는 데이터의 크기와 정밀도, 결과적으로 생성형 AI 모델이 계산 및 응답 생성에 사용하는 메모리 양으로 요약되는 복잡한 주제입니다. 일반적으로 32비트 부동 소수점 데이터인 고정밀 데이터로 모델을 학습시킨 후 Gemma와 같은 모델을 수정하여 16, 8 또는 4비트 크기와 같은 저정밀 데이터로 사용할 수 있습니다. 이러한 양자화된 Gemma 모델은 태스크의 복잡성에 따라 여전히 우수한 성능을 발휘하면서도 컴퓨팅 및 메모리 리소스를 훨씬 적게 사용합니다. 하지만 양자화된 모델을 조정하는 도구는 제한적이며 선택한 AI 개발 프레임워크 내에서 사용하지 못할 수도 있습니다. 일반적으로 Gemma와 같은 모델을 전체 정밀도로 미세 조정한 다음 결과 모델을 양자화해야 합니다.
Google에서 게시한 주요 Gemma 모델 목록은 Gemma 모델 시작하기의 Gemma 모델 목록을 참고하세요.
생성 및 추론 요청 실행
AI 실행 프레임워크와 Gemma 변형을 선택한 후 모델을 실행하고 콘텐츠를 생성하거나 작업을 완료하도록 프롬프트를 표시할 수 있습니다. 특정 프레임워크로 Gemma를 실행하는 방법에 관한 자세한 내용은 프레임워크 선택 섹션에 링크된 가이드를 참고하세요.
프롬프트 형식 지정
명령 조정 Gemma 변형에는 모두 특정 프롬프트 형식 요구사항이 있습니다. 이러한 서식 요구사항 중 일부는 Gemma 모델을 실행하는 데 사용하는 프레임워크에서 자동으로 처리되지만, 토큰화 도구에 프롬프트 데이터를 직접 전송하는 경우 특정 태그를 추가해야 하며 태그 지정 요구사항은 사용하는 Gemma 변형에 따라 달라질 수 있습니다. Gemma 변형 프롬프트 형식 지정 및 시스템 명령어에 관한 자세한 내용은 다음 가이드를 참고하세요.