텍스트, 오디오, 이미지 입력과 최대 256K의 긴 컨텍스트 창을 지원하는 Gemma 4 가 출시되었습니다. 자세히 알아보기

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Llama.cpp로 Gemma 실행

llama.cpp는 효율적인 로컬 추론을 위해 설계된 인기 있는 오픈소스 라이브러리입니다.

빠른 시작

llama.cpp의 사전 빌드 버전 설치

명령어 예:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

멋진 인터페이스에서 모델을 시작하고 실행하려면 다음을 사용하여 서버를 시작하면 됩니다.

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

이렇게 하면 인터페이스(http://localhost:8080)에서 또는 OpenAI 엔드포인트(http://localhost:8080/v1)에 액세스하여 모델에 액세스할 수 있는 서버가 생성됩니다.

Gemma와 함께 llama.cpp를 사용하는 방법에 관한 자세한 내용과 안내는 공식 저장소를 참고하세요.

GitHub의 llama.cpp