Panduan ini menunjukkan cara men-deploy model terbuka Gemma 3 di Cloud Run dengan sekali klik di Google AI Studio.
Google AI Studio adalah platform berbasis browser yang memungkinkan Anda dengan cepat mencoba model dan bereksperimen dengan berbagai perintah. Setelah memasukkan perintah chat untuk mendesain prototipe aplikasi web yang menggunakan model Gemma 3 yang dipilih, Anda dapat memilih Deploy to Cloud Run untuk menjalankan model Gemma di layanan Cloud Run yang mendukung GPU.
Dengan menggunakan Google AI Studio untuk men-deploy layanan frontend yang dihasilkan ke Cloud Run, Anda akan melewati sebagian besar langkah penyiapan untuk menyiapkan penampung karena Cloud Run menyediakan penampung bawaan untuk menayangkan model terbuka Gemma di Cloud Run yang mendukung Google Gen AI SDK.
Mulai menggunakan Google AI Studio
Bagian ini akan memandu Anda men-deploy Gemma 3 ke Cloud Run menggunakan Google AI Studio.
Pilih model Gemma di Google AI Studio.
Di panel Run settings di halaman Chat, gunakan model Gemini default, atau pilih salah satu model Gemma.
Di panel atas, pilih Lihat tindakan lainnya, lalu klik Deploy to Cloud Run.
Pada dialog Deploy Gemma 3 on Google Cloud Run, ikuti petunjuk untuk membuat project Google Cloud baru, atau pilih project yang sudah ada. Anda mungkin diminta untuk mengaktifkan penagihan jika tidak ada akun penagihan yang terkait.
Setelah Google AI Studio memverifikasi project Anda, klik Deploy to Google Cloud.
Setelah model Gemma 3 berhasil di-deploy ke Google Cloud, dialog akan menampilkan hal berikut:
- URL endpoint Cloud Run dari layanan Cloud Run Anda yang menjalankan Gemma 3 dan Ollama.
- Kunci API yang dibuat dan digunakan untuk autentikasi dengan library Gemini API. Kunci ini dikonfigurasi sebagai variabel lingkungan layanan Cloud Run yang di-deploy untuk memberikan otorisasi pada permintaan yang masuk. Sebaiknya ubah kunci API untuk menggunakan autentikasi IAM. Untuk mengetahui detail selengkapnya, lihat Berinteraksi dengan Google Gen AI SDK secara aman.
- Link ke layanan Cloud Run di konsol Google Cloud. Untuk mempelajari setelan konfigurasi default untuk layanan Cloud Run, buka link, lalu pilih Edit & deploy new revision untuk melihat atau mengubah setelan konfigurasi.
Untuk melihat contoh kode Gemini API yang digunakan untuk membuat layanan Cloud Run, pilih Get Code.
Opsional: Salin kode dan buat perubahan sesuai kebutuhan.
Dengan kode, Anda dapat menggunakan endpoint Cloud Run dan kunci API yang di-deploy dengan Google Gen AI SDK.
Misalnya, jika Anda menggunakan Google Gen AI SDK untuk Python, kode Python mungkin terlihat seperti berikut:
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
Pertimbangan
Saat Anda men-deploy layanan Cloud Run dari Google AI Studio, pertimbangkan hal-hal berikut:
- Harga: Cloud Run adalah komponen yang dapat ditagih. Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.
- Kuota: Cloud Run otomatis membuat permintaan untuk
kuota
Request Total Nvidia L4 GPU allocation, per project per regiondi bagian Cloud Run Admin API. - Server Proxy Aplikasi: Layanan yang di-deploy menggunakan Server Proxy Aplikasi Gemini Google AI Studio untuk menggabungkan Ollama dan membuat layanan Anda kompatibel dengan Gemini API.
- Izin: Jika perlu mengubah layanan Cloud Run, Anda harus memiliki peran IAM yang diperlukan yang diberikan ke akun Anda di project.
- Autentikasi: Secara default, saat Anda men-deploy layanan Cloud Run dari
Google AI Studio, layanan akan di-deploy dengan
akses publik (tidak diautentikasi)
(flag
--allow-unauthenticated). Untuk menggunakan mekanisme keamanan yang lebih kuat, sebaiknya autentikasi dengan IAM.
Langkah berikutnya
Pelajari praktik terbaik untuk mengamankan dan mengoptimalkan performa saat Anda men-deploy ke Cloud Run dari Google AI Studio.