Gemma 모델을 실행할 때는 두 가지 주요 결정을 내려야 합니다. 1) 실행할 Gemma 변형과 2) 실행에 사용할 AI 실행 프레임워크입니다. 이 두 결정을 내리는 데 있어 중요한 문제는 모델을 실행하는 데 사용할 수 있는 하드웨어입니다.
이 개요는 이러한 결정을 내리고 Gemma 모델을 사용하기 시작하는 데 도움이 됩니다. Gemma 모델을 실행하는 일반적인 단계는 다음과 같습니다.
프레임워크 선택
Gemma 모델은 다양한 생태계 도구와 호환됩니다. 적절한 옵션은 사용 가능한 하드웨어 (클라우드 GPU 대 로컬 노트북)와 인터페이스 환경설정 (Python 코드 대 데스크톱 애플리케이션)에 따라 달라집니다.
다음 표를 사용하여 필요에 가장 적합한 도구를 빠르게 확인하세요.
| 유용한 경우... | 권장 프레임워크 | 지원 기기 |
|---|---|---|
| Chat UI를 사용하여 로컬에서 실행 | - LM Studio - Ollama |
초보자 또는 노트북에서 'Gemini와 유사한' 환경을 원하는 사용자 |
| Edge에서 효율적으로 실행 | - Gemma.cpp - LiteRT-LM - llama.cpp - MediaPipe LLM 추론 API - MLX |
최소한의 리소스로 고성능 로컬 추론 |
| Python으로 빌드/학습 | - JAX용 Gemma 라이브러리 - Hugging Face 트랜스포머 - Keras - PyTorch - Unsloth |
커스텀 애플리케이션을 빌드하거나 모델을 미세 조정하는 연구원 및 개발자 |
| 프로덕션 / 엔터프라이즈에 배포 | - Google Cloud Kubernetes Engine (GKE) - Google Cloud Run - Vertex AI - vLLM |
엔터프라이즈 보안 및 MLOps 지원을 통해 확장 가능한 관리형 클라우드 배포 |
프레임워크 세부정보
다음은 배포 환경별로 분류된 Gemma 모델 실행 가이드입니다.
1. 데스크톱 및 로컬 추론 (고효율)
이러한 도구를 사용하면 최적화된 형식 (예: GGUF) 또는 특정 하드웨어 가속기를 활용하여 소비자 하드웨어 (노트북, 데스크톱)에서 Gemma를 실행할 수 있습니다.
- LM Studio: 사용자 친화적인 인터페이스에서 Gemma 모델을 다운로드하고 채팅할 수 있는 데스크톱 애플리케이션입니다. 코딩이 필요하지 않습니다.
- llama.cpp: CPU 및 Apple Silicon에서 매우 빠르게 실행되는 Llama (및 Gemma)의 인기 있는 오픈소스 C++ 포트입니다.
- LiteRT-LM: LiteRT(이전 명칭: TFLite)로 구동되는 데스크톱(Windows, Linux, macOS)에서 최적화된
.litertlmGemma 모델을 실행하는 명령줄 인터페이스 (CLI)를 제공합니다. - MLX: Apple Silicon의 머신러닝을 위해 특별히 설계된 프레임워크로, 기본 제공 성능을 원하는 Mac 사용자에게 적합합니다.
- Gemma.cpp: Google에서 특별히 제공하는 경량의 독립형 C++ 추론 엔진입니다.
- Ollama: 개방형 LLM을 로컬로 실행하는 도구로, 다른 애플리케이션을 지원하는 데 자주 사용됩니다.
2. Python 개발 (연구 및 미세 조정)
애플리케이션, 파이프라인 또는 학습 모델을 빌드하는 AI 개발자를 위한 표준 프레임워크입니다.
- Hugging Face Transformers: 모델과 파이프라인에 빠르게 액세스할 수 있는 업계 표준입니다.
- Unsloth: LLM 미세 조정에 최적화된 라이브러리입니다. 이 라이브러리를 사용하면 메모리를 훨씬 적게 사용하여 Gemma 모델을 2~5배 더 빠르게 학습시킬 수 있으므로 소비자 GPU (예: 무료 Google Colab 계층)에서 미세 조정할 수 있습니다.
- Keras / JAX / PyTorch: 딥 러닝 연구 및 맞춤 아키텍처 구현을 위한 핵심 라이브러리입니다.
3. 모바일 및 에지 배포 (기기 내)
인터넷 연결 없이 사용자 기기 (Android, iOS, 웹)에서 직접 LLM을 실행하도록 설계된 프레임워크로, NPU (신경망 처리 장치)를 사용하는 경우가 많습니다.
- LiteRT-LM: 기기 내 LLM 개발을 위한 완전한 오픈소스 프레임워크로, Android 및 iOS에서 CPU, GPU, NPU 가속을 직접 지원하여 최대 성능과 세밀한 제어를 제공합니다.
- MediaPipe LLM 추론 API: Gemma를 크로스 플랫폼 앱에 통합하는 가장 쉬운 방법입니다. Android, iOS, 웹에서 작동하는 상위 수준 API를 제공합니다.
4. 클라우드 및 프로덕션 배포
애플리케이션을 수천 명의 사용자로 확장하거나 대규모 컴퓨팅 성능에 액세스하기 위한 관리형 서비스입니다.
- Vertex AI: Google Cloud의 완전 관리형 AI 플랫폼입니다. SLA 및 확장이 필요한 엔터프라이즈 애플리케이션에 가장 적합합니다.
- Google Cloud Kubernetes Engine (GKE): 자체 서비스 클러스터를 오케스트레이션하는 데 사용됩니다.
- vLLM: 처리량이 높고 메모리 효율적인 추론 및 서빙 엔진으로, 클라우드 배포에 자주 사용됩니다.
의도한 배포 Gemma 모델 형식(예: Keras 내장 형식, Safetensors, GGUF)이 선택한 프레임워크에서 지원되는지 확인합니다.
Gemma 변형 선택
Gemma 모델은 기본 또는 코어 Gemma 모델, PaliGemma, DataGemma와 같은 특화된 모델 변형, Kaggle, Hugging Face와 같은 사이트에서 AI 개발자 커뮤니티가 만든 다양한 변형을 비롯한 여러 변형과 크기로 제공됩니다. 어떤 변형으로 시작해야 할지 잘 모르겠다면 파라미터 수가 가장 적은 최신 Gemma 코어 명령 튜닝 (IT) 모델을 선택하세요. 이 유형의 Gemma 모델은 컴퓨팅 요구사항이 낮으며 추가 개발 없이 다양한 프롬프트에 응답할 수 있습니다.
Gemma 변형을 선택할 때는 다음 요소를 고려하세요.
- Gemma 코어 및 기타 변형 제품군(예: PaliGemma, CodeGemma): Gemma(코어)를 추천합니다. 핵심 버전 이외의 Gemma 변형은 핵심 모델과 동일한 아키텍처를 가지며 특정 작업을 더 잘 수행하도록 학습됩니다. 애플리케이션이나 목표가 특정 Gemma 변형의 전문 분야와 일치하지 않는 한 Gemma 핵심 모델 또는 기본 모델로 시작하는 것이 좋습니다.
- 명령어 튜닝 (IT), 사전 학습 (PT), 미세 조정 (FT), 혼합(mix): IT를 추천합니다.
- 명령 조정 (IT) Gemma 변형은 인간 언어로 된 다양한 명령이나 요청에 응답하도록 학습된 모델입니다. 이러한 모델 변형은 추가 모델 학습 없이 프롬프트에 응답할 수 있으므로 시작하기에 가장 적합합니다.
- 사전 학습 (PT) Gemma 변형은 언어 또는 기타 데이터에 관한 추론을 하도록 학습되었지만 인간의 명령을 따르도록 학습되지 않은 모델입니다. 이러한 모델은 작업을 효과적으로 수행하기 위해 추가 학습이나 조정이 필요하며, 모델의 기능과 아키텍처를 연구하거나 개발하려는 연구자나 개발자를 대상으로 합니다.
- 미세 조정된 (FT) Gemma 변형은 IT 변형으로 간주할 수 있지만 일반적으로 특정 작업을 수행하거나 특정 생성형 AI 벤치마크에서 우수한 성능을 보이도록 학습됩니다. PaliGemma 변형 제품군에는 여러 FT 변형이 포함됩니다.
- 혼합 (mix) Gemma 변형은 다양한 명령어로 명령 튜닝되었으며 일반적인 용도에 적합한 PaliGemma 모델 버전입니다.
- 매개변수: 사용 가능한 가장 작은 수를 추천합니다. 일반적으로 모델에 파라미터가 많을수록 성능이 뛰어납니다. 하지만 모델이 클수록 더 크고 복잡한 컴퓨팅 리소스가 필요하며 일반적으로 AI 애플리케이션 개발 속도가 느려집니다. 더 작은 Gemma 모델이 요구사항을 충족할 수 없다고 이미 판단한 경우가 아니라면 파라미터 수가 적은 모델을 선택하세요.
- 양자화 수준: 튜닝을 제외하고 절반 정밀도 (16비트)를 권장합니다. 양자화는 데이터의 크기와 정밀도, 결과적으로 생성형 AI 모델이 계산 및 응답 생성에 사용하는 메모리 양으로 요약되는 복잡한 주제입니다. 일반적으로 32비트 부동 소수점 데이터인 고정밀 데이터로 모델을 학습시킨 후 Gemma와 같은 모델을 수정하여 16, 8 또는 4비트 크기와 같은 저정밀 데이터로 사용할 수 있습니다. 이러한 양자화된 Gemma 모델은 태스크의 복잡성에 따라 여전히 우수한 성능을 발휘하면서도 컴퓨팅 및 메모리 리소스를 훨씬 적게 사용합니다. 하지만 양자화된 모델을 조정하는 도구는 제한적이며 선택한 AI 개발 프레임워크 내에서 사용하지 못할 수도 있습니다. 일반적으로 Gemma와 같은 모델을 전체 정밀도로 미세 조정한 다음 결과 모델을 양자화해야 합니다.
Google에서 게시한 주요 Gemma 모델 목록은 Gemma 모델 시작하기의 Gemma 모델 목록을 참고하세요.
생성 및 추론 요청 실행
AI 실행 프레임워크와 Gemma 변형을 선택한 후 모델을 실행하고 콘텐츠를 생성하거나 작업을 완료하도록 프롬프트를 표시할 수 있습니다. 특정 프레임워크로 Gemma를 실행하는 방법에 관한 자세한 내용은 프레임워크 선택 섹션에 링크된 가이드를 참고하세요.
프롬프트 형식 지정
명령 조정 Gemma 변형에는 모두 특정 프롬프트 형식 요구사항이 있습니다. 이러한 서식 요구사항 중 일부는 Gemma 모델을 실행하는 데 사용하는 프레임워크에서 자동으로 처리되지만, 토큰화 도구에 프롬프트 데이터를 직접 전송하는 경우 특정 태그를 추가해야 하며 태그 지정 요구사항은 사용하는 Gemma 변형에 따라 달라질 수 있습니다. Gemma 변형 프롬프트 형식 지정 및 시스템 명령어에 관한 자세한 내용은 다음 가이드를 참고하세요.