Bạn cần đưa ra hai quyết định quan trọng khi muốn chạy mô hình Gemma: 1) bạn muốn chạy biến thể Gemma nào và 2) bạn sẽ sử dụng khung thực thi AI nào để chạy mô hình đó? Một vấn đề quan trọng khi đưa ra cả hai quyết định này là phần cứng mà bạn và người dùng của bạn có để chạy mô hình.
Bài viết tổng quan này giúp bạn đưa ra những quyết định này và bắt đầu làm việc với các mô hình Gemma. Sau đây là các bước chung để chạy mô hình Gemma:
Chọn một khung
Các mô hình Gemma tương thích với nhiều công cụ trong hệ sinh thái. Việc chọn công cụ phù hợp phụ thuộc vào phần cứng mà bạn có (GPU trên Cloud so với Máy tính xách tay cục bộ) và lựa chọn ưu tiên về giao diện (mã Python so với Ứng dụng dành cho máy tính).
Hãy sử dụng bảng sau để nhanh chóng xác định công cụ phù hợp nhất với nhu cầu của bạn:
| Nếu bạn muốn... | Khung được đề xuất | Tốt nhất cho |
|---|---|---|
| Chạy cục bộ bằng giao diện người dùng Chat | - LM Studio - Ollama |
Người mới bắt đầu hoặc người dùng muốn có trải nghiệm "tương tự như Gemini" trên máy tính xách tay. |
| Chạy hiệu quả trên Edge | - LiteRT-LM - llama.cpp - MLX |
Suy luận cục bộ hiệu suất cao với tài nguyên tối thiểu. |
| Xây dựng/Huấn luyện bằng Python | - Tunix (Tune-in-JAX) - Hugging Face Transformers - Keras - Unsloth |
Nhà nghiên cứu và nhà phát triển xây dựng các ứng dụng tuỳ chỉnh hoặc tinh chỉnh mô hình. |
| Triển khai vào môi trường sản xuất / doanh nghiệp | - Google Cloud Kubernetes Engine (GKE) - Nền tảng tác nhân Gemini Enterprise - vLLM - SGLang |
Triển khai đám mây có thể mở rộng, được quản lý với tính năng bảo mật cấp doanh nghiệp và hỗ trợ MLOps. |
Thông tin chi tiết về khung
Sau đây là hướng dẫn chạy các mô hình Gemma được phân loại theo môi trường triển khai của bạn.
1. Suy luận cục bộ và trên máy tính (Hiệu quả cao)
Các công cụ này cho phép bạn chạy Gemma trên phần cứng tiêu dùng (máy tính xách tay, máy tính để bàn) bằng cách sử dụng các định dạng được tối ưu hoá (như GGUF) hoặc các bộ tăng tốc phần cứng cụ thể.
- LM Studio: Một ứng dụng dành cho máy tính cho phép bạn tải xuống và trò chuyện với các mô hình Gemma trong một giao diện thân thiện với người dùng. Bạn không cần phải lập trình.
- llama.cpp: Một cổng C++ nguồn mở phổ biến của Llama (và Gemma) chạy cực kỳ nhanh trên CPU và Apple Silicon.
- LiteRT-LM: Cung cấp giao diện dòng lệnh
(CLI) để chạy các mô hình Gemma được tối ưu hoá
.litertlmtrên máy tính (Windows, Linux, macOS), được hỗ trợ bởi LiteRT (trước đây là TFLite). - MLX: Một khung được thiết kế riêng cho hoạt động học máy trên Apple Silicon, hoàn hảo cho người dùng Mac muốn có hiệu suất tích hợp.
- Ollama: Một công cụ để chạy các mô hình ngôn ngữ lớn (LLM) mở cục bộ, thường được dùng để hỗ trợ các ứng dụng khác.
2. Phát triển bằng Python (Nghiên cứu và tinh chỉnh)
Các khung tiêu chuẩn dành cho nhà phát triển AI xây dựng ứng dụng, quy trình hoặc mô hình huấn luyện.
- Hugging Face Transformers: Tiêu chuẩn ngành để truy cập nhanh vào các mô hình và quy trình.
- Unsloth: Một thư viện được tối ưu hoá để tinh chỉnh LLM. Thư viện này cho phép bạn huấn luyện các mô hình Gemma nhanh hơn từ 2 đến 5 lần với bộ nhớ ít hơn đáng kể, giúp bạn có thể tinh chỉnh trên GPU tiêu dùng (ví dụ: các gói miễn phí của Google Colab).
- Keras / Tunix (Tune-in-JAX): Các thư viện cốt lõi cho nghiên cứu về học sâu và triển khai cấu trúc tuỳ chỉnh.
3. Triển khai trên thiết bị di động và Edge (Trên thiết bị)
Các khung được thiết kế để chạy LLM trực tiếp trên thiết bị của người dùng (Android, iOS, Web) mà không cần kết nối Internet, thường sử dụng NPU (Bộ xử lý thần kinh).
- LiteRT-LM: Khung nguồn mở hoàn toàn để phát triển LLM trên thiết bị mang lại hiệu suất tối đa và khả năng kiểm soát chi tiết, hỗ trợ trực tiếp cho việc tăng tốc CPU, GPU và NPU trên Android và iOS.
4. Triển khai trên đám mây và môi trường sản xuất
Các dịch vụ được quản lý để mở rộng ứng dụng của bạn cho hàng nghìn người dùng hoặc truy cập vào sức mạnh tính toán lớn.
- Nền tảng tác nhân Gemini Enterprise: Nền tảng AI được quản lý hoàn toàn của Google Cloud. Phù hợp nhất cho các ứng dụng doanh nghiệp yêu cầu SLA và khả năng mở rộng.
- Google Cloud Kubernetes Engine (GKE): Để điều phối các cụm phân phát của riêng bạn.
- vLLM: Một công cụ suy luận và phân phát có thông lượng cao và tiết kiệm bộ nhớ, thường được dùng trong các hoạt động triển khai trên đám mây.
- SGLang: Khung phân phát hiệu suất cao cho các mô hình ngôn ngữ lớn và đa phương thức.
Đảm bảo rằng định dạng mô hình Gemma mà bạn dự định triển khai (chẳng hạn như định dạng tích hợp của Keras, Safetensors hoặc GGUF) được khung bạn chọn hỗ trợ.
Chọn một biến thể Gemma
Các mô hình Gemma có nhiều biến thể và kích thước, bao gồm cả các mô hình Gemma cơ bản hoặc cốt lõi và các biến thể mô hình chuyên biệt hơn như PaliGemma và DataGemma, cũng như nhiều biến thể do cộng đồng nhà phát triển AI tạo trên các trang web như Kaggle và Hugging Face. Nếu bạn không chắc nên bắt đầu với biến thể nào, hãy chọn mô hình Gemma cốt lõi mới nhất được điều chỉnh theo hướng dẫn (IT) với số lượng tham số thấp nhất. Loại mô hình Gemma này có yêu cầu thấp về tính toán và có thể phản hồi nhiều câu lệnh mà không cần phát triển thêm.
Hãy cân nhắc các yếu tố sau khi chọn một biến thể Gemma:
- Gemma cốt lõi và các họ biến thể khác như PaliGemma, CodeGemma: Đề xuất Gemma (cốt lõi). Các biến thể Gemma ngoài phiên bản cốt lõi có cùng cấu trúc với mô hình cốt lõi và được huấn luyện để hoạt động tốt hơn ở các tác vụ cụ thể. Trừ phi ứng dụng hoặc mục tiêu của bạn phù hợp với chuyên môn của một biến thể Gemma cụ thể, tốt nhất là bạn nên bắt đầu với mô hình Gemma cốt lõi hoặc cơ sở.
- Được điều chỉnh theo hướng dẫn (IT), được huấn luyện trước (PT), được tinh chỉnh (FT), hỗn hợp
(mix): Đề xuất IT.
- Các biến thể Gemma được điều chỉnh theo hướng dẫn (IT) là các mô hình đã được huấn luyện để phản hồi nhiều hướng dẫn hoặc yêu cầu bằng ngôn ngữ của con người. Bạn nên bắt đầu với các biến thể mô hình này vì chúng có thể phản hồi câu lệnh mà không cần huấn luyện thêm mô hình.
- Các biến thể Gemma được huấn luyện trước (PT) là các mô hình đã được huấn luyện để suy luận về ngôn ngữ hoặc dữ liệu khác, nhưng chưa được huấn luyện để tuân theo hướng dẫn của con người. Các mô hình này yêu cầu huấn luyện hoặc điều chỉnh thêm để có thể thực hiện các tác vụ một cách hiệu quả và dành cho các nhà nghiên cứu hoặc nhà phát triển muốn nghiên cứu hoặc phát triển các khả năng của mô hình và cấu trúc của mô hình.
- Các biến thể Gemma được tinh chỉnh (FT) có thể được coi là các biến thể IT, nhưng thường được huấn luyện để thực hiện một tác vụ cụ thể hoặc hoạt động tốt trên một điểm chuẩn AI tạo sinh cụ thể. Họ biến thể PaliGemma bao gồm một số biến thể FT.
- Các biến thể Gemma hỗn hợp (mix) là các phiên bản của mô hình PaliGemma đã được điều chỉnh theo hướng dẫn với nhiều hướng dẫn và phù hợp với mục đích sử dụng chung.
- Tham số: Đề xuất số lượng nhỏ nhất có sẵn. Nhìn chung, mô hình càng có nhiều tham số thì càng có nhiều khả năng. Tuy nhiên, việc chạy các mô hình lớn hơn đòi hỏi các tài nguyên tính toán lớn hơn và phức tạp hơn, đồng thời thường làm chậm quá trình phát triển ứng dụng AI. Trừ phi bạn đã xác định rằng một mô hình Gemma nhỏ hơn không thể đáp ứng nhu cầu của bạn, hãy chọn một mô hình có số lượng tham số nhỏ.
- Mức lượng tử hoá: Đề xuất độ bán chính xác (16 bit), ngoại trừ việc điều chỉnh. Lượng tử hoá là một chủ đề phức tạp, liên quan đến kích thước và độ chính xác của dữ liệu, và do đó là lượng bộ nhớ mà mô hình AI tạo sinh sử dụng để tính toán và tạo câu trả lời. Sau khi được huấn luyện bằng dữ liệu có độ chính xác cao (thường là dữ liệu dấu phẩy động 32 bit), các mô hình như Gemma có thể được sửa đổi để sử dụng dữ liệu có độ chính xác thấp hơn, chẳng hạn như kích thước 16, 8 hoặc 4 bit. Các mô hình Gemma được lượng tử hoá này vẫn có thể hoạt động tốt, tuỳ thuộc vào độ phức tạp của các tác vụ, đồng thời sử dụng ít tài nguyên tính toán và bộ nhớ hơn đáng kể. Tuy nhiên, các công cụ để điều chỉnh các mô hình được lượng tử hoá bị hạn chế và có thể không có trong khung phát triển AI mà bạn chọn. Thông thường, bạn phải tinh chỉnh một mô hình như Gemma ở độ chính xác đầy đủ, sau đó lượng tử hoá mô hình kết quả.
Để xem danh sách các mô hình Gemma chính do Google xuất bản, hãy xem bài viết Bắt đầu sử dụng các mô hình Gemma, Danh sách mô hình Gemma.
Chạy các yêu cầu tạo và suy luận
Sau khi chọn một khung thực thi AI và một biến thể Gemma, bạn có thể bắt đầu chạy mô hình và yêu cầu mô hình đó tạo nội dung hoặc hoàn thành các tác vụ. Để biết thêm thông tin về cách chạy Gemma bằng một khung cụ thể, hãy xem các hướng dẫn được liên kết trong phần Chọn một khung.
Định dạng câu lệnh
Tất cả các biến thể Gemma được điều chỉnh theo hướng dẫn đều có các yêu cầu cụ thể về định dạng câu lệnh. Một số yêu cầu về định dạng này được khung bạn dùng để chạy các mô hình Gemma xử lý tự động, nhưng khi gửi dữ liệu câu lệnh trực tiếp đến một trình phân tách mã thông báo, bạn phải thêm các thẻ cụ thể và các yêu cầu gắn thẻ có thể thay đổi tuỳ thuộc vào biến thể Gemma mà bạn đang sử dụng. Hãy xem các hướng dẫn sau để biết thông tin về định dạng câu lệnh và hướng dẫn hệ thống cho biến thể Gemma: