Ollama で Gemma を実行する

Gemma などの生成 AI モデルを実行するには、適切なハードウェアが必要です。llama.cpp や Ollama などのオープンソースフレームワークを使用すると、事前構成済みのランタイム環境を設定できるため、コンピューティングリソースを抑えながら Gemma のバージョンを実行できます。実際、llama.cpp と Ollama を使用すると、グラフィックスプロセッシングユニット（GPU）なしで、ラップトップやその他の小型コンピューティングデバイスで Gemma のバージョンを実行できます。

コンピューティングリソースを抑えて Gemma モデルを実行するため、llama.cpp フレームワークと Ollama フレームワークは、Georgi Gerganov 統合形式（GGUF）モデルファイル形式でモデルの量子化バージョンを使用します。これらの量子化モデルは、より小さく精度の低いデータを使用してリクエストを処理するように変更されています。量子化モデルで精度が低いデータを使用してリクエストを処理すると、通常はモデル出力の品質が低下しますが、コンピューティングリソースの費用も削減されます。

このガイドでは、Ollama を設定して使用し、Gemma を実行してテキストレスポンスを生成する方法について説明します。

セットアップ

このセクションでは、Ollama を設定して、リクエストに応答する Gemma モデルインスタンスを準備する方法について説明します。これには、モデルへのアクセス権のリクエスト、ソフトウェアのインストール、Ollama での Gemma モデルの構成が含まれます。

Gemma モデルにアクセスする

Gemma モデルを使用する前に、Kaggle からアクセスをリクエストし、Gemma 利用規約を確認してください。

Ollama をインストールする

Gemma を Ollama で使用するには、Ollama ソフトウェアをコンピューティングデバイスにダウンロードしてインストールする必要があります。

Ollama をダウンロードしてインストールするには:

ダウンロードページ（https://ollama.com/download）に移動します。
オペレーティングシステムを選択し、[ダウンロード] ボタンをクリックするか、ダウンロードページの手順に沿って操作します。
インストーラを実行してアプリケーションをインストールします。
- Windows: インストーラ *.exe ファイルを実行し、手順に沿って操作します。
- Mac: ZIP パッケージを解凍し、Ollama アプリケーションフォルダを Applications ディレクトリに移動します。
- Linux: bash スクリプトインストーラの手順に沿って操作します。
ターミナルウィンドウを開き、次のコマンドを入力して Ollama がインストールされていることを確認します。
```
ollama --version
```

ollama version is #.#.## のようなレスポンスが表示されます。この結果が得られない場合は、Ollama 実行可能ファイルがオペレーティングシステムのパスに追加されていることを確認します。

Ollama で Gemma を構成する

Ollama インストールパッケージには、デフォルトではモデルが含まれていません。モデルをダウンロードするには、pull コマンドを使用します。

Ollama で Gemma を構成するには:

ターミナルウィンドウを開き、次のコマンドを入力して、デフォルトの Gemma 3 バリアントをダウンロードして構成します。
```
ollama pull gemma3
```
ダウンロードが完了したら、次のコマンドでモデルが使用可能であることを確認できます。
```
ollama list
```

デフォルトでは、Ollama は 40 億のパラメータ、4 ビット量子化（Q4_0）の Gemma モデルバリアントをダウンロードします。パラメータサイズを指定して、Gemma モデルの他のサイズをダウンロードして使用することもできます。

モデルは <model_name>:<tag> として指定します。Gemma 3 の場合、1B、4B、12B、27B の 4 つのサイズのパラメータがあります。

1B パラメータ gemma3:1b
4B パラメータ gemma3:4b
12B パラメータ gemma3:12b
27B パラメータ gemma3:27b

使用可能なタグ（Gemma 3、Gemma 2、Gemma など）は、Ollama のウェブサイトで確認できます。

回答を生成する

Ollama に Gemma モデルのインストールが完了したら、Ollama のコマンドラインインターフェースの run コマンドを使用してレスポンスをすぐに生成できます。Ollama は、モデルにアクセスするためのウェブサービスを構成します。このウェブサービスは、curl コマンドを使用してテストできます。

コマンドラインからレスポンスを生成するには:

ターミナルウィンドウで、次のコマンドを入力します。
```
ollama run gemma3 "roses are red"
```

画像入力を使用するには、画像のパスを指定します。

ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"

Ollama ローカルウェブサービスを使用してレスポンスを生成するには:

ターミナルウィンドウで、次のコマンドを入力します。

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"roses are red"\
}'

画像入力を使用するには、Base64 でエンコードされた画像のリストを指定します。

curl http://localhost:11434/api/generate -d '{\
  "model": "gemma3",\
  "prompt":"caption this image",\
  "images":[...]\
}'

チューニング済みの Gemma モデル

Ollama には、すぐに使用できる一連の公式 Gemma モデルバリアントが用意されています。これらのモデルは量子化され、GGUF 形式で保存されています。独自のチューニング済み Gemma モデルを Ollama で使用するには、GGUF 形式に変換します。Ollama には、チューニング済みモデルを Modelfile 形式から GGUF に変換する関数がいくつか含まれています。チューニング済みモデルを GGUF に変換する方法については、Ollama の README をご覧ください。

次のステップ

Ollama で Gemma を実行したら、Gemma の生成 AI 機能を使用して、テストとソリューションの構築を開始できます。Ollama のコマンドラインインターフェースは、スクリプトソリューションの構築に役立ちます。Ollama ローカルウェブサービスインターフェースは、試験運用版のアプリケーションや使用頻度の低いアプリケーションの構築に役立ちます。

Ollama ウェブサービスを使用して統合し、ローカルで実行される個人用コードアシスタントを作成してみてください。
Gemma モデルをファインチューニングする方法を学習する。
Google Cloud Run サービスを使用して Ollama で Gemma を実行する方法について学習します。
Google Cloud で Gemma を実行する方法について学習する。