適切なハードウェアがないと、Gemma などの生成 AI モデルの実行は困難になる可能性があります。llama.cpp や Ollama などのオープンソース フレームワークを使用すると、事前構成済みのランタイム環境を設定して、より少ないコンピューティング リソースで Gemma のバージョンを実行できるため、この作業が容易になります。実際、llama.cpp と Ollama を使用すると、グラフィック プロセッシング ユニット(GPU)なしで、ノートパソコンやその他の小型コンピューティング デバイスで Gemma のバージョンを実行できます。
llama.cpp フレームワークと Ollama フレームワークは、より少ないコンピューティング リソースで Gemma モデルを実行するために、Georgi Gerganov Unified Format(GGUF)モデル ファイル形式のモデルの量子化バージョンを使用します。これらの量子化モデルは、より小さく、精度の低いデータを使用してリクエストを処理するように変更されます。通常、量子化モデルで精度の低いデータを使用してリクエストを処理すると、モデルの出力の品質は低下しますが、コンピューティング リソースの費用を削減できます。
このガイドでは、Ollama を設定して使用し、Gemma を実行してテキスト レスポンスを生成する方法について説明します。
セットアップ
このセクションでは、Ollama を設定し、リクエストに応答するように Gemma モデル インスタンスを準備する方法について説明します。これには、モデル アクセスのリクエスト、ソフトウェアのインストール、Ollama での Gemma モデルの構成が含まれます。
Ollama をインストールする
Ollama で Gemma を使用するには、コンピューティング デバイスに Ollama ソフトウェアをダウンロードしてインストールする必要があります。
Ollama をダウンロードしてインストールするには:
- ダウンロード ページ(https://ollama.com/download)に移動します。
- オペレーティング システムを選択し、[ダウンロード] ボタンをクリックするか、ダウンロード ページの指示に沿って操作します。
- インストーラを実行してアプリケーションをインストールします。
- Windows: インストーラ *.exe ファイルを実行し、手順に沿って操作します。
- Mac: zip パッケージを解凍し、Ollama アプリケーション フォルダを Applications ディレクトリに移動します。
- Linux: bash スクリプト インストーラの指示に従います。
ターミナル ウィンドウを開き、次のコマンドを入力して、Ollama がインストールされていることを確認します。
ollama --version
次のようなレスポンスが表示されます。ollama version is #.#.##この結果が得られない場合は、Ollama 実行可能ファイルがオペレーティング システムのパスに追加されていることを確認してください。
Ollama で Gemma を構成する
Ollama インストール パッケージには、デフォルトでモデルは含まれていません。モデルをダウンロードするには、pull コマンドを使用します。
Ollama で Gemma を構成する手順は次のとおりです。
ターミナル ウィンドウを開き、次のコマンドを入力して、デフォルトの Gemma 4 バリアントをダウンロードして構成します。
ollama pull gemma4
ダウンロードが完了したら、次のコマンドを使用してモデルが使用可能であることを確認できます。
ollama list
モデルは <model_name>:<tag> として指定されます。Gemma 4 の場合、E2B、E4B、26B、31B の 4 つのサイズのパラメータがあります。
- E2B パラメータ
gemma4:e2b - E4B パラメータ
gemma4:e4b - 26B A4B パラメータ
gemma4:26b - 31B パラメータ
gemma4:31b
利用可能なタグは、Ollama ウェブサイトで確認できます。たとえば、Gemma 4、Gemma 3n、Gemma 3、Gemma 2、Gemma などがあります。
レスポンスを生成する
Ollama に Gemma モデルをインストールしたら、Ollama のコマンドライン インターフェースの run コマンドを使用して、すぐにレスポンスを生成できます。Ollama は、モデルにアクセスするためのウェブサービスも構成します。このウェブサービスは、curl コマンドを使用してテストできます。
コマンドラインからレスポンスを生成するには:
ターミナル ウィンドウで、次のコマンドを入力します。
ollama run gemma4 "roses are red"画像へのパスを含めて、ビジュアル入力を使用します。
ollama run gemma4 "caption this image /Users/$USER/Desktop/surprise.png"
Ollama ローカル ウェブサービスを使用してレスポンスを生成するには:
ターミナル ウィンドウで、次のコマンドを入力します。
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"roses are red"\ }'ビジュアル入力を使用するには、Base64 エンコードされた画像のリストを含めます。
curl http://localhost:11434/api/generate -d '{\ "model": "gemma4",\ "prompt":"caption this image",\ "images":[...]\ }'
チューニングされた Gemma モデル
Ollama には、すぐに使用できる一連の公式 Gemma モデル バリアントが用意されています。これらは量子化され、GGUF 形式で保存されています。チューニングした独自の Gemma モデルを Ollama で使用するには、GGUF 形式に変換します。Ollama には、チューニング済みモデルを Modelfile 形式から GGUF に変換する関数が含まれています。チューニング済みモデルを GGUF に変換する方法について詳しくは、Ollama の README をご覧ください。
次のステップ
Ollama で Gemma を実行したら、Gemma の生成 AI 機能を使用してソリューションのテストと構築を開始できます。Ollama のコマンドライン インターフェースは、スクリプト ソリューションの構築に役立ちます。Ollama ローカル ウェブ サービス インターフェースは、試験運用や小規模なユースケースのアプリケーションを構築するのに役立ちます。
- Ollama ウェブサービスを使用して統合し、ローカルで実行される個人用コード アシスタントを作成してみます。
- Gemma モデルをファインチューニングする方法を学習する。
- Google Cloud Run サービスを使用して Ollama で Gemma を実行する方法について学習します。
- Google Cloud で Gemma を実行する方法について学習する。