Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Llama.cpp で Gemma を実行する

llama.cpp は、効率的なローカル推論用に設計された人気のオープンソースライブラリです。

クイックスタート

llama.cpp のインストール済みバージョン

コマンドの例:

# Download and run a model directly from Hugging Face
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF --prompt "Write a poem about the Kraken."

# Use System Prompt
llama-cli -hf ggml-org/gemma-4-E2B-it-GGUF -sys "You are Hong Gildong." -p "Who are you?"

モデルを使いやすいインターフェースで実行するには、次のコマンドでサーバーを起動します。

llama-server -hf ggml-org/gemma-4-E2B-it-GGUF

これにより、インターフェース（http://localhost:8080）または OpenAI エンドポイント（http://localhost:8080/v1）からモデルにアクセスできるサーバーが作成されます。

Gemma で llama.cpp を使用する方法の詳細と手順については、公式リポジトリをご覧ください。

GitHub の llama.cpp

Llama.cpp で Gemma を実行する

クイック スタート

クイックスタート