Triển khai Gemma bằng Google Cloud

Nền tảng Google Cloud cung cấp nhiều lựa chọn để triển khai, phân phát và tinh chỉnh các mô hình nguồn mở Gemma 4, bao gồm:

Nền tảng tác nhân Gemini Enterprise

Nền tảng tác nhân Gemini Enterprise là một nền tảng của Google Cloud để nhanh chóng xây dựng và mở rộng các dự án học máy. Gemma 4 có trong Model Garden, một bộ sưu tập mô hình được tuyển chọn trên Nền tảng tác nhân Gemini Enterprise. Bạn có thể kiểm thử và triển khai các mô hình ngay trên bảng điều khiển.

Để tìm hiểu thêm, hãy tham khảo các trang sau:

Cloud Run

Cloud Run là một nền tảng được quản lý hoàn toàn để chạy mã hoặc vùng chứa của bạn trên cơ sở hạ tầng có khả năng mở rộng cao của Google. Triển khai Gemma 4 trên Cloud Run bằng GPU để suy luận theo mô hình quy mô bằng 0, trả tiền theo mức sử dụng.

Đối với các kích thước mô hình lớn hơn, hãy tận dụng các cấu hình nâng cao với GPU RTX 6000 Pro và tính năng Truyền trực tuyến mô hình.

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) là một dịch vụ Kubernetes được quản lý của Google Cloud. Chạy Gemma 4 trên GKE để điều phối vùng chứa cấp doanh nghiệp. Sử dụng TPU và GPU để phân phát các mô hình có thông lượng cao và độ trễ thấp.

Bộ công cụ phát triển tác nhân (ADK)

Xây dựng và điều phối các tác nhân AI bằng Gemma 4 và Bộ công cụ phát triển tác nhân (ADK). Khả năng suy luận và gọi hàm mạnh mẽ của Gemma 4 khiến mô hình này trở nên lý tưởng cho các quy trình công việc dựa trên tác nhân.

Cụm huấn luyện Nền tảng tác nhân Gemini Enterprise

Tinh chỉnh Gemma 4 bằng Cụm huấn luyện Nền tảng tác nhân Gemini Enterprise. Cụm huấn luyện cung cấp cơ sở hạ tầng được tối ưu hoá để huấn luyện và tinh chỉnh các mô hình mở ở quy mô lớn.

vLLM có TPU

Triển khai Gemma 4 trên TPU của Google Cloud để có hiệu suất triển khai tiên tiến.

MaxText

Gemma 4 được hỗ trợ trong MaxText, một giải pháp triển khai LLM JAX có hiệu suất cao và kích thước tuỳ ý cho TPU của Google Cloud.

Sovereign Cloud

Gemma 4 có trong các giải pháp Sovereign Cloud, giúp tăng cường khả năng kiểm soát và tuân thủ cho các khối lượng công việc nhạy cảm.