Phát hành Gemma 3n có đầu vào âm thanh và được tối ưu hoá để sử dụng trong các thiết bị hằng ngày! Tìm hiểu thêm

Triển khai Gemma bằng Google Cloud

Nền tảng Google Cloud cung cấp nhiều dịch vụ để triển khai và phân phát các mô hình mở Gemma, bao gồm:

Vertex AI
Cloud Run
Google Kubernetes Engine
Dataflow ML

Vertex AI

Vertex AI là một nền tảng của Google Cloud giúp bạn nhanh chóng xây dựng và mở rộng quy mô các dự án học máy mà không cần có chuyên môn về MLOps nội bộ. Vertex AI cung cấp một bảng điều khiển nơi bạn có thể làm việc với một số lượng lớn mô hình, đồng thời cung cấp các chức năng MLOps toàn diện và trải nghiệm không cần máy chủ để phát triển nhanh chóng.

Bạn có thể sử dụng Vertex AI làm ứng dụng hạ nguồn phân phát Gemma. Gemma có trong Model Garden (Vườn mô hình), một bộ sưu tập mô hình được tuyển chọn. Ví dụ: bạn có thể chuyển trọng số từ một quá trình triển khai Gemma và sử dụng Vertex AI để phân phát phiên bản Gemma đó nhằm nhận thông tin dự đoán.

Để tìm hiểu thêm, hãy tham khảo các trang sau:

Giới thiệu về Vertex AI: Làm quen với Vertex AI.
Gemma với Vertex AI: Sử dụng các mô hình mở của Gemma với Vertex AI.
Tinh chỉnh Gemma bằng KerasNLP và triển khai lên Vertex AI: Sổ tay toàn diện để tinh chỉnh Gemma bằng Keras.

Cloud Run

Cloud Run là một nền tảng được quản lý toàn bộ để chạy mã, hàm hoặc vùng chứa trên cơ sở hạ tầng có khả năng mở rộng cao của Google.

Cloud Run cung cấp GPU theo yêu cầu, khởi động nhanh, mở rộng đến 0, trả phí theo mức sử dụng, cho phép bạn phân phát các mô hình mở như Gemma.

Để tìm hiểu thêm về cách chạy Gemma trên Cloud Run, hãy tham khảo các trang sau:

Google Kubernetes Engine (GKE)

Google Kubernetes Engine (GKE) là một dịch vụ Kubernetes được quản lý của Google Cloud. Bạn có thể sử dụng dịch vụ này để triển khai và vận hành các ứng dụng được đóng gói trong vùng chứa trên quy mô lớn bằng cơ sở hạ tầng của Google. Bạn có thể phân phát Gemma bằng cách sử dụng các đơn vị xử lý Tensor trên đám mây (TPU) và đơn vị xử lý đồ hoạ (GPU) trên GKE bằng các khung phân phát LLM sau:

Bằng cách phân phát Gemma trên GKE, bạn có thể triển khai một giải pháp phân phát suy luận mạnh mẽ, sẵn sàng cho hoạt động sản xuất với tất cả các lợi ích của Kubernetes được quản lý, bao gồm cả khả năng mở rộng hiệu quả và khả năng sẵn sàng cao hơn.

Để tìm hiểu thêm, hãy tham khảo các trang sau:

Tổng quan về GKE: Làm quen với Google Kubernetes Engine (GKE)
Điều phối AI/ML trên GKE: Chạy các khối lượng công việc AI/ML được tối ưu hoá bằng GKE

Dataflow ML

Dataflow ML là một nền tảng Google Cloud để triển khai và quản lý quy trình làm việc hoàn chỉnh về học máy. Với công nghệ học máy Dataflow, bạn có thể chuẩn bị dữ liệu để huấn luyện mô hình bằng các công cụ xử lý dữ liệu, sau đó sử dụng các mô hình như Gemma để thực hiện suy luận cục bộ và từ xa bằng quy trình xử lý hàng loạt và theo luồng.

Bạn có thể sử dụng công nghệ học máy Dataflow để tích hợp liền mạch Gemma vào quy trình suy luận Apache Beam bằng một vài dòng mã, cho phép bạn nhập dữ liệu, xác minh và chuyển đổi dữ liệu, đưa dữ liệu đầu vào văn bản vào Gemma và tạo đầu ra văn bản.

Để tìm hiểu thêm, hãy tham khảo các trang sau:

Sử dụng mô hình mở Gemma bằng Dataflow: Bắt đầu sử dụng Gemma trong Dataflow.
Chạy quy trình suy luận bằng mô hình Gemma mở: Hướng dẫn sử dụng Gemma trong quy trình suy luận Apache Beam.