Gemma などの生成 AI モデルを実行するには、適切なハードウェアが必要です。llama.cpp や Ollama などのオープンソース フレームワークを使用すると、事前構成済みのランタイム環境を設定できるため、コンピューティング リソースを抑えながら Gemma のバージョンを実行できます。実際、llama.cpp と Ollama を使用すると、グラフィックス プロセッシング ユニット(GPU)なしで、ラップトップやその他の小型コンピューティング デバイスで Gemma のバージョンを実行できます。
コンピューティング リソースを抑えて Gemma モデルを実行するため、llama.cpp フレームワークと Ollama フレームワークは、Georgi Gerganov 統合形式(GGUF)モデル ファイル形式でモデルの量子化バージョンを使用します。これらの量子化モデルは、より小さく精度の低いデータを使用してリクエストを処理するように変更されています。量子化モデルで精度が低いデータを使用してリクエストを処理すると、通常はモデル出力の品質が低下しますが、コンピューティング リソースの費用も削減されます。
このガイドでは、Ollama を設定して使用し、Gemma を実行してテキスト レスポンスを生成する方法について説明します。
セットアップ
このセクションでは、Ollama を設定して、リクエストに応答する Gemma モデル インスタンスを準備する方法について説明します。これには、モデルへのアクセス権のリクエスト、ソフトウェアのインストール、Ollama での Gemma モデルの構成が含まれます。
Gemma モデルにアクセスする
Gemma モデルを使用する前に、Kaggle からアクセスをリクエストし、Gemma 利用規約を確認してください。
Ollama をインストールする
Gemma を Ollama で使用するには、Ollama ソフトウェアをコンピューティング デバイスにダウンロードしてインストールする必要があります。
Ollama をダウンロードしてインストールするには:
- ダウンロード ページ(https://ollama.com/download)に移動します。
- オペレーティング システムを選択し、[ダウンロード] ボタンをクリックするか、ダウンロード ページの手順に沿って操作します。
- インストーラを実行してアプリケーションをインストールします。
- Windows: インストーラ *.exe ファイルを実行し、手順に沿って操作します。
- Mac: ZIP パッケージを解凍し、Ollama アプリケーション フォルダを Applications ディレクトリに移動します。
- Linux: bash スクリプト インストーラの手順に沿って操作します。
ターミナル ウィンドウを開き、次のコマンドを入力して Ollama がインストールされていることを確認します。
ollama --version
ollama version is #.#.##
のようなレスポンスが表示されます。この結果が得られない場合は、Ollama 実行可能ファイルがオペレーティング システムのパスに追加されていることを確認します。
Ollama で Gemma を構成する
Ollama インストール パッケージには、デフォルトではモデルが含まれていません。モデルをダウンロードするには、pull
コマンドを使用します。
Ollama で Gemma を構成するには:
ターミナル ウィンドウを開き、次のコマンドを入力して、デフォルトの Gemma 3 バリアントをダウンロードして構成します。
ollama pull gemma3
ダウンロードが完了したら、次のコマンドでモデルが使用可能であることを確認できます。
ollama list
デフォルトでは、Ollama は 40 億のパラメータ、4 ビット量子化(Q4_0)の Gemma モデル バリアントをダウンロードします。パラメータ サイズを指定して、Gemma モデルの他のサイズをダウンロードして使用することもできます。
モデルは <model_name>:<tag>
として指定します。Gemma 3 の場合、1B、4B、12B、27B の 4 つのサイズのパラメータがあります。
- 1B パラメータ
gemma3:1b
- 4B パラメータ
gemma3:4b
- 12B パラメータ
gemma3:12b
- 27B パラメータ
gemma3:27b
使用可能なタグ(Gemma 3、Gemma 2、Gemma など)は、Ollama のウェブサイトで確認できます。
回答を生成する
Ollama に Gemma モデルのインストールが完了したら、Ollama のコマンドライン インターフェースの run
コマンドを使用してレスポンスをすぐに生成できます。Ollama は、モデルにアクセスするためのウェブサービスを構成します。このウェブサービスは、curl
コマンドを使用してテストできます。
コマンドラインからレスポンスを生成するには:
ターミナル ウィンドウで、次のコマンドを入力します。
ollama run gemma3 "roses are red"
画像入力を使用するには、画像のパスを指定します。
ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama ローカル ウェブサービスを使用してレスポンスを生成するには:
ターミナル ウィンドウで、次のコマンドを入力します。
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"roses are red"\ }'
画像入力を使用するには、Base64 でエンコードされた画像のリストを指定します。
curl http://localhost:11434/api/generate -d '{\ "model": "gemma3",\ "prompt":"caption this image",\ "images":[...]\ }'
チューニング済みの Gemma モデル
Ollama には、すぐに使用できる一連の公式 Gemma モデル バリアントが用意されています。これらのモデルは量子化され、GGUF 形式で保存されています。独自のチューニング済み Gemma モデルを Ollama で使用するには、GGUF 形式に変換します。Ollama には、チューニング済みモデルを Modelfile 形式から GGUF に変換する関数がいくつか含まれています。チューニング済みモデルを GGUF に変換する方法については、Ollama の README をご覧ください。
次のステップ
Ollama で Gemma を実行したら、Gemma の生成 AI 機能を使用して、テストとソリューションの構築を開始できます。Ollama のコマンドライン インターフェースは、スクリプト ソリューションの構築に役立ちます。Ollama ローカル ウェブサービス インターフェースは、試験運用版のアプリケーションや使用頻度の低いアプリケーションの構築に役立ちます。
- Ollama ウェブサービスを使用して統合し、ローカルで実行される個人用コード アシスタントを作成してみてください。
- Gemma モデルをファインチューニングする方法を学習する。
- Google Cloud Run サービスを使用して Ollama で Gemma を実行する方法について学習します。
- Google Cloud で Gemma を実行する方法について学習する。