적절한 하드웨어가 없으면 Gemma와 같은 생성형 인공지능 (AI) 모델을 실행하기가 쉽지 않을 수 있습니다. llama.cpp 및 Ollama와 같은 오픈소스 프레임워크는 컴퓨팅 리소스를 적게 사용하여 Gemma 버전을 실행할 수 있는 사전 구성된 런타임 환경을 설정하여 이를 더 쉽게 만듭니다. 실제로 llama.cpp 및 Ollama를 사용하면 그래픽 처리 장치 (GPU) 없이 노트북이나 기타 소형 컴퓨팅 기기에서 Gemma 버전을 실행할 수 있습니다.
컴퓨팅 리소스를 적게 사용하여 Gemma 모델을 실행하기 위해 llama.cpp 및 Ollama 프레임워크는 Georgi Gerganov 통합 형식 (GGUF) 모델 파일 형식의 모델의 정규화된 버전을 사용합니다. 이러한 양자화 모델은 더 작고 정확도가 낮은 데이터를 사용하여 요청을 처리하도록 수정됩니다. 정규화된 모델에서 덜 정확한 데이터를 사용하여 요청을 처리하면 일반적으로 모델 출력의 품질이 저하되지만 컴퓨팅 리소스 비용도 낮출 수 있습니다.
이 가이드에서는 Ollama를 설정하고 사용하여 Gemma를 실행하여 텍스트 응답을 생성하는 방법을 설명합니다.
설정
이 섹션에서는 Ollama를 설정하고 모델 액세스 요청, 소프트웨어 설치, Ollama에서 Gemma 모델 구성을 비롯한 요청에 응답하도록 Gemma 모델 인스턴스를 준비하는 방법을 설명합니다.
Gemma 모델 액세스
Gemma 모델을 사용하기 전에 Kaggle을 통해 액세스를 요청하고 Gemma 사용 약관을 검토해야 합니다.
Ollama 설치
Ollama에서 Gemma를 사용하려면 먼저 컴퓨팅 기기에 Ollama 소프트웨어를 다운로드하여 설치해야 합니다.
Ollama를 다운로드하고 설치하려면 다음 단계를 따르세요.
- 다운로드 페이지(https://ollama.com/download)로 이동합니다.
- 운영체제를 선택하고 다운로드 버튼을 클릭하거나 다운로드 페이지의 안내를 따릅니다.
- 설치 프로그램을 실행하여 애플리케이션을 설치합니다.
- Windows: 설치 프로그램 *.exe 파일을 실행하고 안내를 따릅니다.
- Mac: zip 패키지의 압축을 풀고 Ollama 애플리케이션 폴더를 Applications 디렉터리로 이동합니다.
- Linux: bash 스크립트 설치 프로그램의 안내를 따릅니다.
터미널 창을 열고 다음 명령어를 입력하여 Ollama가 설치되었는지 확인합니다.
ollama --version
ollama version is #.#.##
와 유사한 응답이 표시됩니다. 이 결과가 표시되지 않으면 Ollama 실행 파일이 운영체제 경로에 추가되어 있는지 확인합니다.
Ollama에서 Gemma 구성
Ollama 설치 패키지에는 기본적으로 모델이 포함되어 있지 않습니다. pull
명령어를 사용하여 모델을 다운로드합니다.
Ollama에서 Gemma를 구성하려면 다음 단계를 따르세요.
터미널 창을 열고 다음 명령어를 입력하여 기본 Gemma 3 변형을 다운로드하고 구성합니다.
ollama pull gemma3
다운로드가 완료되면 다음 명령어를 사용하여 모델을 사용할 수 있는지 확인할 수 있습니다.
ollama list
기본적으로 Ollama는 40억 개의 매개변수, 4비트 양자화 (Q4_0) Gemma 모델 변형을 다운로드합니다. 매개변수 크기를 지정하여 다른 크기의 Gemma 모델을 다운로드하여 사용할 수도 있습니다.
모델은 <model_name>:<tag>
로 지정됩니다. Gemma 3의 경우 1B, 4B, 12B, 27B 매개변수의 4가지 크기가 있습니다.
- 1B 매개변수
gemma3:1b
- 4B 매개변수
gemma3:4b
- 12B 매개변수
gemma3:12b
- 27B 매개변수
gemma3:27b
Ollama 웹사이트에서 Gemma 3, Gemma 2, Gemma 등 사용 가능한 태그를 확인할 수 있습니다.
응답 생성
Ollama에서 Gemma 모델 설치를 완료하면 Ollama의 명령줄 인터페이스 run
명령어를 사용하여 즉시 응답을 생성할 수 있습니다.
Ollama는 모델에 액세스하기 위한 웹 서비스를 구성하며, 이 웹 서비스는 curl
명령어를 사용하여 테스트할 수 있습니다.
명령줄에서 응답을 생성하려면 다음 단계를 따르세요.
터미널 창에서 다음 명령어를 입력합니다.
ollama run gemma3 "roses are red"
시각적 입력을 사용하려면 이미지의 경로를 포함합니다.
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama 로컬 웹 서비스를 사용하여 응답을 생성하려면 다음 단계를 따르세요.
터미널 창에서 다음 명령어를 입력합니다.
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
시각적 입력을 사용하려면 base64로 인코딩된 이미지 목록을 포함합니다.
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
조정된 Gemma 모델
Ollama는 즉시 사용할 수 있는 일련의 공식 Gemma 모델 변형을 제공하며, 이러한 변형은 GGUF 형식으로 정규화되고 저장됩니다. 자체 조정된 Gemma 모델을 GGUF 형식으로 변환하여 Ollama와 함께 사용할 수 있습니다. Ollama에는 조정된 모델을 Modelfile 형식에서 GGUF로 변환하는 몇 가지 함수가 포함되어 있습니다. 조정된 모델을 GGUF로 변환하는 방법에 관한 자세한 내용은 Ollama 리드미를 참고하세요.
다음 단계
Ollama에서 Gemma를 실행하면 Gemma의 생성형 AI 기능으로 솔루션을 실험하고 빌드할 수 있습니다. Ollama의 명령줄 인터페이스는 스크립팅 솔루션을 빌드하는 데 유용할 수 있습니다. Ollama 로컬 웹 서비스 인터페이스는 실험용 및 사용 빈도가 낮은 애플리케이션을 빌드하는 데 유용할 수 있습니다.
- Ollama 웹 서비스를 사용하여 통합하고 로컬에서 실행되는 개인 코드 어시스턴트를 만들어 보세요.
- Gemma 모델을 미세 조정하는 방법을 알아보세요.
- Google Cloud Run 서비스를 통해 Ollama로 Gemma를 실행하는 방법을 알아봅니다.
- Google Cloud에서 Gemma를 실행하는 방법을 알아보세요.