Llama.cpp로 Gemma 실행

llama.cpp는 효율적인 로컬 추론을 위해 설계된 인기 있는 오픈소스 라이브러리입니다.

빠른 시작

llama.cpp의 사전 빌드 버전 설치

명령어 예:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

멋진 인터페이스에서 모델을 시작하고 실행하려면 다음을 사용하여 서버를 시작하면 됩니다.

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

이렇게 하면 인터페이스(http://localhost:8080)에서 또는 OpenAI 엔드포인트(http://localhost:8080/v1)에 액세스하여 모델에 액세스할 수 있는 서버가 생성됩니다.

Gemma와 함께 llama.cpp를 사용하는 방법에 관한 자세한 내용과 안내는 공식 저장소를 참고하세요.

GitHub의 llama.cpp