このガイドでは、Google AI Studio でワンクリックで Gemma 3 オープンモデルを Cloud Run にデプロイする方法について説明します。
Google AI Studio は、モデルをすばやく試してさまざまなプロンプトをテストできるブラウザベースのプラットフォームです。チャット プロンプトを入力して、選択した Gemma 3 モデルを使用するプロトタイプ ウェブアプリを設計したら、[Cloud Run にデプロイ] を選択して、GPU 対応の Cloud Run サービスで Gemma モデルを実行できます。
Google AI Studio を使用して生成されたフロントエンド サービスを Cloud Run にデプロイすると、Cloud Run で Gemma オープンモデルを提供する 事前構築済みコンテナが提供されるため、コンテナを準備する設定手順のほとんどをスキップできます。このコンテナは Google Gen AI SDK をサポートしています。
Google AI Studio を使ってみる
このセクションでは、Google AI Studio を使用して Gemma 3 を Cloud Run にデプロイする手順について説明します。
Google AI Studio で Gemma モデルを選択します。
[Chat] ページの [実行設定] パネルで、デフォルトの Gemma モデルを使用するか、Gemma モデルのいずれかを選択します。
上部のバーで [その他の操作を表示] を選択し、[Cloud Run にデプロイ] をクリックします。
[Deploy Gemma 3 on Google Cloud Run] ダイアログで、プロンプトに沿って新しい Google Cloud プロジェクトを作成するか、既存のプロジェクトを選択します。関連付けられている請求先アカウントがない場合は、課金を有効にするよう求めるメッセージが表示されることがあります。
Google AI Studio がプロジェクトを確認したら、[Google Cloud にデプロイ] をクリックします。
Gemma 3 モデルが Google Cloud に正常にデプロイされると、ダイアログに次のように表示されます。
- Gemma 3 と Ollama を実行している Cloud Run サービスの Cloud Run エンドポイント URL。
- Gemini API ライブラリでの認証に使用される生成された API キー。このキーは、デプロイされた Cloud Run サービスの環境変数として構成され、受信リクエストを承認します。IAM 認証を使用するように API キーを変更することをおすすめします。詳細については、Google Gen AI SDK を安全に操作するをご覧ください。
- Google Cloud コンソールの Cloud Run サービスへのリンク。Cloud Run サービスのデフォルトの構成設定については、リンクに移動し、[新しいリビジョンの編集とデプロイ] を選択して構成設定を表示または変更してください。
Cloud Run サービスの作成に使用された Gemini API サンプルコードを表示するには、[コードを取得] を選択します。
省略可: コードをコピーし、必要に応じて変更を加えます。
コードでは、デプロイされた Cloud Run エンドポイントと API キーを Google Gen AI SDK で使用できます。
たとえば、Google Gen AI SDK for Python を使用している場合、Python コードは次のようになります。
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
考慮事項
Google AI Studio から Cloud Run サービスをデプロイする場合は、次の点を考慮してください。
- 料金: Cloud Run は課金対象コンポーネントです。料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。
- 割り当て: Cloud Run は、Cloud Run Admin API で
Request Total Nvidia L4 GPU allocation, per project per region割り当てを自動的にリクエストします。 - アプリ プロキシ サーバー: デプロイされたサービスは、Google AI Studio Gemini アプリ プロキシ サーバーを使用して Ollama をラップし、サービスを Gemini API と互換性のあるものにします。
- 権限: Cloud Run サービスを変更する必要がある場合は、プロジェクトのアカウントに必要な IAM ロールが付与されている必要があります。
- 認証: デフォルトでは、Google AI Studio から Cloud Run サービスをデプロイすると、サービスは公開(未認証)アクセス(
--allow-unauthenticatedフラグ)でデプロイされます。より強力なセキュリティ メカニズムを使用するには、IAM で認証することをおすすめします。
次のステップ
Google AI Studio から Cloud Run にデプロイする際のパフォーマンスの保護と最適化に関するベスト プラクティスについて学習する。