적절한 하드웨어가 없으면 Gemma와 같은 생성형 인공지능 (AI) 모델을 실행하기 어려울 수 있습니다. llama.cpp 및 Ollama와 같은 오픈소스 프레임워크를 사용하면 사전 구성된 런타임 환경을 설정하여 컴퓨팅 리소스가 적은 Gemma 버전을 실행할 수 있으므로 이 작업이 더 쉬워집니다. 실제로 llama.cpp와 Ollama를 사용하면 그래픽 처리 장치(GPU) 없이 노트북이나 기타 소형 컴퓨팅 기기에서 Gemma 버전을 실행할 수 있습니다.
컴퓨팅 리소스를 적게 사용하여 Gemma 모델을 실행하기 위해 llama.cpp 및 Ollama 프레임워크는 Georgi Gerganov Unified Format (GGUF) 모델 파일 형식의 모델 양자화된 버전을 사용합니다. 이러한 양자화 모델은 더 작고 정밀도가 낮은 데이터를 사용하여 요청을 처리하도록 수정됩니다. 양자화된 모델에서 덜 정확한 데이터를 사용하여 요청을 처리하면 일반적으로 모델 출력의 품질이 낮아지지만 컴퓨팅 리소스 비용도 낮아집니다.
이 가이드에서는 Ollama를 설정하고 사용하여 Gemma를 실행하여 텍스트 응답을 생성하는 방법을 설명합니다.
설정
이 섹션에서는 모델 액세스 요청, 소프트웨어 설치, Ollama에서 Gemma 모델 구성 등 요청에 응답하도록 Ollama를 설정하고 Gemma 모델 인스턴스를 준비하는 방법을 설명합니다.
Ollama 설치
Ollama에서 Gemma를 사용하려면 먼저 컴퓨팅 기기에 Ollama 소프트웨어를 다운로드하여 설치해야 합니다.
Ollama를 다운로드하고 설치하려면 다음 단계를 따르세요.
- 다운로드 페이지(https://ollama.com/download)로 이동합니다.
- 운영체제를 선택하고 다운로드 버튼을 클릭하거나 다운로드 페이지의 안내를 따릅니다.
- 설치 프로그램을 실행하여 애플리케이션을 설치합니다.
- Windows: 설치 프로그램 *.exe 파일을 실행하고 안내를 따릅니다.
- Mac: zip 패키지를 압축 해제하고 Ollama 애플리케이션 폴더를 Applications 디렉터리로 이동합니다.
- Linux: bash 스크립트 설치 프로그램의 안내를 따릅니다.
터미널 창을 열고 다음 명령어를 입력하여 Ollama가 설치되었는지 확인합니다.
ollama --version
ollama version is #.#.##와 비슷한 응답이 표시됩니다. 이 결과가 표시되지 않으면 Ollama 실행 파일이 운영체제 경로에 추가되었는지 확인하세요.
Ollama에서 Gemma 구성
Ollama 설치 패키지에는 기본적으로 모델이 포함되어 있지 않습니다. pull 명령어를 사용하여 모델을 다운로드합니다.
Ollama에서 Gemma를 구성하려면 다음 단계를 따르세요.
터미널 창을 열고 다음 명령어를 입력하여 기본 Gemma 4 변형을 다운로드하고 구성합니다.
ollama pull gemma4
다운로드를 완료한 후 다음 명령어를 사용하여 모델을 사용할 수 있는지 확인할 수 있습니다.
ollama list
모델은 <model_name>:<tag>로 지정됩니다. Gemma 4의 경우 E2B, E4B, 26B, 31B 매개변수 등 4가지 크기가 있습니다.
- E2B 매개변수
gemma4:e2b - E4B 매개변수
gemma4:e4b - 26B A4B 매개변수
gemma4:26b - 31B 매개변수
gemma4:31b
Ollama 웹사이트에서 Gemma 4, Gemma 3n, Gemma 3, Gemma 2, Gemma 등 사용 가능한 태그를 확인할 수 있습니다.
응답 생성
Ollama에 Gemma 모델을 설치하면 Ollama의 명령줄 인터페이스 run 명령어를 사용하여 즉시 대답을 생성할 수 있습니다. Ollama는 모델에 액세스하기 위한 웹 서비스도 구성하며, curl 명령어를 사용하여 테스트할 수 있습니다.
명령줄에서 응답을 생성하려면 다음을 실행하세요.
터미널 창에서 다음 명령어를 입력합니다.
ollama run gemma4 "roses are red"시각적 입력을 사용하려면 이미지 경로를 포함하세요.
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama 로컬 웹 서비스를 사용하여 응답을 생성하려면 다음 단계를 따르세요.
터미널 창에서 다음 명령어를 입력합니다.
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'시각적 입력을 사용하려면 base64로 인코딩된 이미지 목록을 포함하세요.
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
조정된 Gemma 모델
Ollama는 즉시 사용할 수 있는 공식 Gemma 모델 변형을 제공하며, 이는 양자화되어 GGUF 형식으로 저장됩니다. 미세 조정된 자체 Gemma 모델을 GGUF 형식으로 변환하여 Ollama와 함께 사용할 수 있습니다. Ollama에는 Modelfile 형식에서 GGUF로 조정된 모델을 변환하는 몇 가지 기능이 포함되어 있습니다. 조정된 모델을 GGUF로 변환하는 방법에 관한 자세한 내용은 Ollama README를 참고하세요.
다음 단계
Ollama로 Gemma를 실행하면 Gemma의 생성형 AI 기능을 사용하여 실험하고 솔루션을 빌드할 수 있습니다. Ollama의 명령줄 인터페이스는 스크립팅 솔루션을 빌드하는 데 유용할 수 있습니다. Ollama 로컬 웹 서비스 인터페이스는 실험적이고 소량 사용 애플리케이션을 빌드하는 데 유용할 수 있습니다.
- Ollama 웹 서비스를 사용하여 통합하여 로컬에서 실행되는 개인 코드 어시스턴트를 만들어 보세요.
- Gemma 모델을 미세 조정하는 방법을 알아보세요.
- Google Cloud Run 서비스를 사용하여 Ollama로 Gemma를 실행하는 방법을 알아봅니다.
- Google Cloud에서 Gemma를 실행하는 방법을 알아보세요.