Gemma 4 がリリースされました。テキスト、音声、画像の入力に対応し、最大 256, 000 トークンの長いコンテキストウィンドウを備えています。詳細

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ollama で Gemma を実行する

適切なハードウェアがないと、Gemma などの生成 AI モデルの実行は困難になる可能性があります。llama.cpp や Ollama などのオープンソースフレームワークを使用すると、事前構成済みのランタイム環境を設定して、より少ないコンピューティングリソースで Gemma のバージョンを実行できるため、この作業が容易になります。実際、llama.cpp と Ollama を使用すると、グラフィックプロセッシングユニット（GPU）なしで、ノートパソコンやその他の小型コンピューティングデバイスで Gemma のバージョンを実行できます。

llama.cpp フレームワークと Ollama フレームワークは、より少ないコンピューティングリソースで Gemma モデルを実行するために、Georgi Gerganov Unified Format（GGUF）モデルファイル形式のモデルの量子化バージョンを使用します。これらの量子化モデルは、より小さく、精度の低いデータを使用してリクエストを処理するように変更されます。通常、量子化モデルで精度の低いデータを使用してリクエストを処理すると、モデルの出力の品質は低下しますが、コンピューティングリソースの費用を削減できます。

このガイドでは、Ollama を設定して使用し、Gemma を実行してテキストレスポンスを生成する方法について説明します。

セットアップ

このセクションでは、Ollama を設定し、リクエストに応答するように Gemma モデルインスタンスを準備する方法について説明します。これには、モデルアクセスのリクエスト、ソフトウェアのインストール、Ollama での Gemma モデルの構成が含まれます。

Ollama をインストールする

Ollama で Gemma を使用するには、コンピューティングデバイスに Ollama ソフトウェアをダウンロードしてインストールする必要があります。

Ollama をダウンロードしてインストールするには:

ダウンロードページ（https://ollama.com/download）に移動します。
オペレーティングシステムを選択し、[ダウンロード] ボタンをクリックするか、ダウンロードページの指示に沿って操作します。
インストーラを実行してアプリケーションをインストールします。
- Windows: インストーラ *.exe ファイルを実行し、手順に沿って操作します。
- Mac: zip パッケージを解凍し、Ollama アプリケーションフォルダを Applications ディレクトリに移動します。
- Linux: bash スクリプトインストーラの指示に従います。
ターミナルウィンドウを開き、次のコマンドを入力して、Ollama がインストールされていることを確認します。

ollama --version

次のようなレスポンスが表示されます。ollama version is #.#.##この結果が得られない場合は、Ollama 実行可能ファイルがオペレーティングシステムのパスに追加されていることを確認してください。

Ollama で Gemma を構成する

Ollama インストールパッケージには、デフォルトでモデルは含まれていません。モデルをダウンロードするには、pull コマンドを使用します。

Ollama で Gemma を構成する手順は次のとおりです。

ターミナルウィンドウを開き、次のコマンドを入力して、デフォルトの Gemma 4 バリアントをダウンロードして構成します。

ollama pull gemma4
ダウンロードが完了したら、次のコマンドを使用してモデルが使用可能であることを確認できます。

ollama list

モデルは <model_name>:<tag> として指定されます。Gemma 4 の場合、E2B、E4B、26B、31B の 4 つのサイズのパラメータがあります。

E2B パラメータ gemma4:e2b
E4B パラメータ gemma4:e4b
26B A4B パラメータ gemma4:26b
31B パラメータ gemma4:31b

利用可能なタグは、Ollama ウェブサイトで確認できます。たとえば、Gemma 4、Gemma 3n、Gemma 3、Gemma 2、Gemma などがあります。

レスポンスを生成する

Ollama に Gemma モデルをインストールしたら、Ollama のコマンドラインインターフェースの run コマンドを使用して、すぐにレスポンスを生成できます。Ollama は、モデルにアクセスするためのウェブサービスも構成します。このウェブサービスは、curl コマンドを使用してテストできます。

コマンドラインからレスポンスを生成するには:

ターミナルウィンドウで、次のコマンドを入力します。
```
ollama run gemma4 "roses are red"
```

画像へのパスを含めて、ビジュアル入力を使用します。

ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"

Ollama ローカルウェブサービスを使用してレスポンスを生成するには:

ターミナルウィンドウで、次のコマンドを入力します。

curl http://localhost:11434/api/generate -d '{\
      "model": "gemma4",\
      "prompt":"roses are red"\
}'

ビジュアル入力を使用するには、Base64 エンコードされた画像のリストを含めます。

curl http://localhost:11434/api/generate -d '{\
      "model": "gemma4",\
      "prompt":"caption this image",\
      "images":[...]\
}'

チューニングされた Gemma モデル

Ollama には、すぐに使用できる一連の公式 Gemma モデルバリアントが用意されています。これらは量子化され、GGUF 形式で保存されています。チューニングした独自の Gemma モデルを Ollama で使用するには、GGUF 形式に変換します。Ollama には、チューニング済みモデルを Modelfile 形式から GGUF に変換する関数が含まれています。チューニング済みモデルを GGUF に変換する方法について詳しくは、Ollama の README をご覧ください。

次のステップ

Ollama で Gemma を実行したら、Gemma の生成 AI 機能を使用してソリューションのテストと構築を開始できます。Ollama のコマンドラインインターフェースは、スクリプトソリューションの構築に役立ちます。Ollama ローカルウェブサービスインターフェースは、試験運用や小規模なユースケースのアプリケーションを構築するのに役立ちます。

Ollama ウェブサービスを使用して統合し、ローカルで実行される個人用コードアシスタントを作成してみます。
Gemma モデルをファインチューニングする方法を学習する。
Google Cloud Run サービスを使用して Ollama で Gemma を実行する方法について学習します。
Google Cloud で Gemma を実行する方法について学習する。