Hướng dẫn này cho biết cách triển khai các mô hình mở Gemma 3 trên Cloud Run chỉ bằng một lần nhấp trong Google AI Studio.
AI Studio của Google là một nền tảng dựa trên trình duyệt giúp bạn nhanh chóng dùng thử các mô hình và thử nghiệm với nhiều câu lệnh. Sau khi nhập câu lệnh trò chuyện để thiết kế một ứng dụng web nguyên mẫu sử dụng mô hình Gemma 3 đã chọn, bạn có thể chọn Triển khai lên Cloud Run để chạy mô hình Gemma trên dịch vụ Cloud Run hỗ trợ GPU.
Bằng cách sử dụng Google AI Studio để triển khai dịch vụ giao diện người dùng đã tạo cho Cloud Run, bạn có thể bỏ qua hầu hết các bước thiết lập để chuẩn bị vùng chứa vì Cloud Run cung cấp một vùng chứa tạo sẵn để phân phát các mô hình mở Gemma trên Cloud Run hỗ trợ SDK AI tạo sinh của Google.
Bắt đầu sử dụng Google AI Studio
Phần này hướng dẫn bạn cách triển khai Gemma 3 lên Cloud Run bằng Google AI Studio.
Chọn một mô hình Gemma trong Google AI Studio.
Trong bảng điều khiển Run settings (Cài đặt chạy) trên trang Chat (Trò chuyện), hãy sử dụng mô hình Gemma mặc định hoặc chọn một trong các mô hình Gemma.
Trong thanh trên cùng, hãy chọn Xem các thao tác khác rồi nhấp vào Triển khai lên Cloud Run.
Trong hộp thoại Deploy Gemma 3 on Google Cloud Run (Triển khai Gemma 3 trên Google Cloud Run), hãy làm theo lời nhắc để tạo một dự án Google Cloud mới hoặc chọn một dự án hiện có. Bạn có thể được nhắc bật tính năng thanh toán nếu không có tài khoản thanh toán được liên kết.
Sau khi Google AI Studio xác minh dự án của bạn, hãy nhấp vào Triển khai lên Google Cloud.
Sau khi mô hình Gemma 3 được triển khai thành công lên Google Cloud, hộp thoại sẽ hiển thị nội dung sau:
- URL điểm cuối Cloud Run của dịch vụ Cloud Run đang chạy Gemma 3 và Ollama.
- Khoá API được tạo dùng để xác thực bằng thư viện API Gemini. Khoá này được định cấu hình dưới dạng một biến môi trường của dịch vụ Cloud Run đã triển khai để uỷ quyền cho các yêu cầu đến. Bạn nên sửa đổi khoá API để sử dụng tính năng xác thực IAM. Để biết thêm thông tin, hãy xem bài viết Tương tác an toàn với SDK AI tạo sinh của Google.
- Đường liên kết đến dịch vụ Cloud Run trong Google Cloud Console. Để tìm hiểu về chế độ cài đặt cấu hình mặc định cho dịch vụ Cloud Run, hãy truy cập vào đường liên kết, sau đó chọn Chỉnh sửa và triển khai bản sửa đổi mới để xem hoặc sửa đổi chế độ cài đặt cấu hình.
Để xem mã mẫu API Gemini dùng để tạo dịch vụ Cloud Run, hãy chọn Get Code (Lấy mã).
Không bắt buộc: Sao chép mã và sửa đổi nếu cần.
Với mã của mình, bạn có thể sử dụng điểm cuối Cloud Run và khoá API đã triển khai bằng SDK AI Gen của Google.
Ví dụ: nếu bạn đang sử dụng SDK AI Gen của Google cho Python, thì mã Python có thể có dạng như sau:
from google import genai
from google.genai.types import HttpOptions
# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))
# Example: Generate content (non-streaming)
response = client.models.generate_content(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["How does AI work?"]
)
print(response.text)
# Example: Stream generate content
response = client.models.generate_content_stream(
model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
print(chunk.text, end="")
Lưu ý
Khi triển khai dịch vụ Cloud Run từ Google AI Studio, hãy cân nhắc những điều sau:
- Giá: Cloud Run là một thành phần có tính phí. Để tạo chi phí ước tính dựa trên mức sử dụng dự kiến, hãy sử dụng công cụ tính mức giá.
- Hạn mức: Cloud Run tự động tạo yêu cầu về hạn mức
Request Total Nvidia L4 GPU allocation, per project per region
trong API quản trị Cloud Run. - Máy chủ proxy ứng dụng: Dịch vụ được triển khai sử dụng Máy chủ proxy ứng dụng Gemini của Google AI Studio để gói Ollama và giúp dịch vụ của bạn tương thích với Gemini API.
- Quyền: Nếu cần sửa đổi dịch vụ Cloud Run, bạn phải được cấp các vai trò IAM bắt buộc cho tài khoản của mình trên dự án.
- Xác thực: Theo mặc định, khi bạn triển khai dịch vụ Cloud Run từ Google AI Studio, dịch vụ này sẽ được triển khai bằng quyền truy cập công khai (chưa xác thực) (cờ
--allow-unauthenticated
). Để sử dụng cơ chế bảo mật mạnh mẽ hơn, bạn nên xác thực bằng IAM.
Bước tiếp theo
Tìm hiểu các phương pháp hay nhất để bảo mật và tối ưu hoá hiệu suất khi bạn triển khai lên Cloud Run từ Google AI Studio.