Ollama で Gemma を実行する

Gemma などの生成 AI モデルを実行するには、適切なハードウェアが必要です。llama.cppOllama などのオープンソース フレームワークを使用すると、事前構成済みのランタイム環境を設定できるため、コンピューティング リソースを抑えながら Gemma のバージョンを実行できます。実際、llama.cpp と Ollama を使用すると、グラフィックス プロセッシング ユニット(GPU)なしで、ラップトップやその他の小型コンピューティング デバイスで Gemma のバージョンを実行できます。

コンピューティング リソースを抑えて Gemma モデルを実行するため、llama.cpp フレームワークと Ollama フレームワークは、Georgi Gerganov 統合形式(GGUF)モデル ファイル形式でモデルの量子化バージョンを使用します。これらの量子化モデルは、より小さく精度の低いデータを使用してリクエストを処理するように変更されています。量子化モデルで精度が低いデータを使用してリクエストを処理すると、通常はモデル出力の品質が低下しますが、コンピューティング リソースの費用も削減されます。

このガイドでは、Ollama を設定して使用し、Gemma を実行してテキスト レスポンスを生成する方法について説明します。

セットアップ

このセクションでは、Ollama を設定して、リクエストに応答する Gemma モデル インスタンスを準備する方法について説明します。これには、モデルへのアクセス権のリクエスト、ソフトウェアのインストール、Ollama での Gemma モデルの構成が含まれます。

Gemma モデルにアクセスする

Gemma モデルを使用する前に、Kaggle からアクセスをリクエストし、Gemma 利用規約を確認してください。

Ollama をインストールする

Gemma を Ollama で使用するには、Ollama ソフトウェアをコンピューティング デバイスにダウンロードしてインストールする必要があります。

Ollama をダウンロードしてインストールするには:

  1. ダウンロード ページ(https://ollama.com/download)に移動します。
  2. オペレーティング システムを選択し、[ダウンロード] ボタンをクリックするか、ダウンロード ページの手順に沿って操作します。
  3. インストーラを実行してアプリケーションをインストールします。
    • Windows: インストーラ *.exe ファイルを実行し、手順に沿って操作します。
    • Mac: ZIP パッケージを解凍し、Ollama アプリケーション フォルダを Applications ディレクトリに移動します。
    • Linux: bash スクリプト インストーラの手順に沿って操作します。
  4. ターミナル ウィンドウを開き、次のコマンドを入力して Ollama がインストールされていることを確認します。

    ollama --version
    

ollama version is #.#.## のようなレスポンスが表示されます。この結果が得られない場合は、Ollama 実行可能ファイルがオペレーティング システムのパスに追加されていることを確認します。

Ollama で Gemma を構成する

Ollama インストール パッケージには、デフォルトではモデルが含まれていません。モデルをダウンロードするには、pull コマンドを使用します。

Ollama で Gemma を構成するには:

  1. ターミナル ウィンドウを開き、次のコマンドを入力して、デフォルトの Gemma 3 バリアントをダウンロードして構成します。

    ollama pull gemma3
    
  2. ダウンロードが完了したら、次のコマンドでモデルが使用可能であることを確認できます。

    ollama list
    

デフォルトでは、Ollama は 40 億のパラメータ、4 ビット量子化(Q4_0)の Gemma モデル バリアントをダウンロードします。パラメータ サイズを指定して、Gemma モデルの他のサイズをダウンロードして使用することもできます。

モデルは <model_name>:<tag> として指定します。Gemma 3 の場合、1B、4B、12B、27B の 4 つのサイズのパラメータがあります。

  • 1B パラメータ gemma3:1b
  • 4B パラメータ gemma3:4b
  • 12B パラメータ gemma3:12b
  • 27B パラメータ gemma3:27b

使用可能なタグ(Gemma 3Gemma 2Gemma など)は、Ollama のウェブサイトで確認できます。

回答を生成する

Ollama に Gemma モデルのインストールが完了したら、Ollama のコマンドライン インターフェースの run コマンドを使用してレスポンスをすぐに生成できます。Ollama は、モデルにアクセスするためのウェブサービスを構成します。このウェブサービスは、curl コマンドを使用してテストできます。

コマンドラインからレスポンスを生成するには:

  • ターミナル ウィンドウで、次のコマンドを入力します。

    ollama run gemma3 "roses are red"
    
  • 画像入力を使用するには、画像のパスを指定します。

    ollama run gemma3 "caption this image /Users/$USER/Desktop/surprise.png"
    

Ollama ローカル ウェブサービスを使用してレスポンスを生成するには:

  • ターミナル ウィンドウで、次のコマンドを入力します。

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"roses are red"\
    }'
    
  • 画像入力を使用するには、Base64 でエンコードされた画像のリストを指定します。

    curl http://localhost:11434/api/generate -d '{\
      "model": "gemma3",\
      "prompt":"caption this image",\
      "images":[...]\
    }'
    

チューニング済みの Gemma モデル

Ollama には、すぐに使用できる一連の公式 Gemma モデル バリアントが用意されています。これらのモデルは量子化され、GGUF 形式で保存されています。独自のチューニング済み Gemma モデルを Ollama で使用するには、GGUF 形式に変換します。Ollama には、チューニング済みモデルを Modelfile 形式から GGUF に変換する関数がいくつか含まれています。チューニング済みモデルを GGUF に変換する方法については、Ollama の README をご覧ください。

次のステップ

Ollama で Gemma を実行したら、Gemma の生成 AI 機能を使用して、テストとソリューションの構築を開始できます。Ollama のコマンドライン インターフェースは、スクリプト ソリューションの構築に役立ちます。Ollama ローカル ウェブサービス インターフェースは、試験運用版のアプリケーションや使用頻度の低いアプリケーションの構築に役立ちます。