Triển khai Gemma bằng Google Cloud

Nền tảng Google Cloud cung cấp nhiều lựa chọn để triển khai, phân phát và tinh chỉnh các mô hình mở Gemma 4, bao gồm cả những lựa chọn sau:

Vertex AI Model Garden

Vertex AI là một nền tảng Google Cloud để nhanh chóng xây dựng và mở rộng các dự án học máy. Gemma 4 có trong Model Garden, một bộ sưu tập mô hình được tuyển chọn trên Vertex AI. Bạn có thể kiểm thử và triển khai các mô hình ngay trên bảng điều khiển.

Để tìm hiểu thêm, hãy tham khảo các trang sau:

Cloud Run

Cloud Run là một nền tảng được quản lý hoàn toàn để chạy mã hoặc vùng chứa của bạn trên cơ sở hạ tầng có khả năng mở rộng cao của Google. Triển khai Gemma 4 trên Cloud Run bằng GPU để suy luận theo mô hình quy mô bằng 0, trả tiền theo mức sử dụng.

Đối với các kích thước mô hình lớn hơn, hãy tận dụng các cấu hình nâng cao bằng GPU RTX 6000 Pro và tính năng Truyền phát trực tuyến mô hình.

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) là một dịch vụ Kubernetes được quản lý của Google Cloud. Chạy Gemma 4 trên GKE để điều phối vùng chứa cấp doanh nghiệp. Sử dụng TPU và GPU để phân phát các mô hình có thông lượng cao và độ trễ thấp.

Bộ công cụ phát triển tác nhân (ADK)

Tạo và điều phối các tác nhân AI bằng Gemma 4 và Bộ công cụ phát triển tác nhân (ADK). Khả năng suy luận và gọi hàm mạnh mẽ của Gemma 4 khiến mô hình này trở nên lý tưởng cho các quy trình làm việc dựa trên tác nhân.

Cụm huấn luyện Vertex AI (VTC)

Tinh chỉnh Gemma 4 bằng Cụm huấn luyện Vertex AI (VTC). VTC cung cấp cơ sở hạ tầng được tối ưu hoá để huấn luyện và tinh chỉnh các mô hình mở ở quy mô lớn.

vLLM có TPU

Triển khai Gemma 4 trên TPU của Google Cloud để có hiệu suất triển khai tiên tiến.

MaxText

Gemma 4 được hỗ trợ trong MaxText, một triển khai LLM JAX có hiệu suất cao, kích thước tuỳ ý cho TPU của Google Cloud.

Sovereign Cloud

Gemma 4 có trong các giải pháp Sovereign Cloud, giúp tăng cường khả năng kiểm soát và tuân thủ cho các khối lượng công việc nhạy cảm.