Llama.cpp で Gemma を実行する

llama.cpp は、効率的なローカル推論用に設計された人気のオープンソース ライブラリです。

クイック スタート

llama.cpp のインストール済みバージョン

コマンドの例:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

モデルを使いやすいインターフェースで実行するには、次のコマンドでサーバーを起動します。

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

これにより、インターフェース(http://localhost:8080)または OpenAI エンドポイント(http://localhost:8080/v1)からモデルにアクセスできるサーバーが作成されます。

Gemma で llama.cpp を使用する方法の詳細と手順については、公式リポジトリをご覧ください。

GitHub の llama.cpp