Gemma là một nhóm các mô hình trí tuệ nhân tạo tạo sinh và bạn có thể sử dụng các mô hình này trong nhiều nhiệm vụ tạo nội dung, bao gồm trả lời câu hỏi, tóm tắt và suy luận. Các mô hình Gemma được cung cấp với trọng số mở và cho phép sử dụng cho mục đích thương mại một cách có trách nhiệm, cho phép bạn điều chỉnh và triển khai các mô hình này trong các dự án và ứng dụng của riêng mình.
Nhóm mô hình Gemma 4 bao gồm 4 cấu trúc riêng biệt được điều chỉnh cho các yêu cầu cụ thể về phần cứng:
- Kích thước nhỏ: Các mô hình tham số hiệu quả 2B và 4B được tạo cho việc triển khai trên thiết bị di động siêu nhỏ, thiết bị biên và trình duyệt (ví dụ: Pixel, Chrome).
- Mật độ cao: Mô hình mật độ cao mạnh mẽ với 31 tỷ tham số, giúp thu hẹp khoảng cách giữa hiệu suất cấp máy chủ và việc thực thi cục bộ.
- Mixture-of-Experts: Mô hình MoE 26 tỷ tham số có hiệu suất cao, được thiết kế để có thông lượng cao và khả năng suy luận nâng cao.
- Hợp nhất: Mô hình miễn phí bộ mã hoá 12B cho các tác vụ đa phương thức, thay thế bộ mã hoá hình ảnh và âm thanh bằng các phép chiếu tuyến tính trực tiếp của dữ liệu đầu vào.
Bạn có thể tải các mô hình Gemma 4 xuống từ Kaggle và Hugging Face. Để biết thêm thông tin kỹ thuật về Gemma 4, hãy xem Thẻ mô hình. Bạn cũng có thể tải các phiên bản trước của mô hình cơ sở Gemma xuống. Để biết thêm thông tin, hãy xem phần Các mô hình Gemma trước đây.
Tải xuống trên Kaggle Tải xuống trên Hugging Face
Tính năng
- Lý do: Tất cả các mô hình trong họ đều được thiết kế để có khả năng suy luận cao, với các chế độ tư duy có thể định cấu hình.
- Đa phương thức mở rộng: Xử lý văn bản, hình ảnh với tỷ lệ khung hình và độ phân giải có thể thay đổi (tất cả các mô hình), video và âm thanh (được tích hợp sẵn trên các mô hình E2B, E4B và 12B).
- Cửa sổ ngữ cảnh lớn hơn: Các mô hình nhỏ có cửa sổ ngữ cảnh 128K, trong khi các mô hình trung bình hỗ trợ 256K.
- Khả năng lập trình và tác nhân nâng cao: Đạt được những cải tiến đáng kể trong các điểm chuẩn về lập trình cùng với khả năng hỗ trợ gọi hàm tích hợp sẵn, giúp các tác nhân tự quản có khả năng cao hoạt động hiệu quả.
- Hỗ trợ câu lệnh hệ thống gốc: Gemma 4 giới thiệu tính năng hỗ trợ tích hợp cho vai trò hệ thống, cho phép các cuộc trò chuyện có cấu trúc và dễ kiểm soát hơn.
- Dự đoán nhiều mã thông báo: Tất cả các mô hình Gemma 4 (E2B, E4B, 12B, 31B và 26B A4B) đều có một mô hình nháp chuyên dụng để giải mã suy đoán, giúp suy luận nhanh hơn đáng kể mà không làm giảm chất lượng.
Kích thước và lượng tử hoá tham số
Các mô hình Gemma 4 có 5 kích thước tham số: E2B, E4B, 12B, 31B và 26B A4B. Bạn có thể sử dụng các mô hình này với độ chính xác mặc định (16 bit) hoặc với độ chính xác thấp hơn bằng cách sử dụng lượng tử hoá. Các kích thước và độ chính xác khác nhau thể hiện một loạt các điểm đánh đổi cho ứng dụng AI của bạn. Các mô hình có nhiều tham số và số lượng bit hơn (độ chính xác cao hơn) thường có khả năng cao hơn, nhưng sẽ tốn kém hơn khi chạy về mặt chu kỳ xử lý, chi phí bộ nhớ và mức tiêu thụ điện năng. Các mô hình có ít tham số và số lượng bit hơn (độ chính xác thấp hơn) có ít khả năng hơn, nhưng có thể đủ cho tác vụ AI của bạn.
Yêu cầu về bộ nhớ suy luận của Gemma 4
Bảng sau đây trình bày chi tiết các yêu cầu về bộ nhớ GPU hoặc TPU gần đúng để chạy suy luận với từng kích thước của các phiên bản mô hình Gemma 4.
| Thông số | BF16 (16 bit) | SFP8 (8 bit) | Q4_0 (4 bit) | Thiết bị di động | Thiết bị di động (Chỉ có văn bản) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11,4 GB | 5,7 GB | 2,9 GB | 1,1 GB | 0,84 GB |
| Gemma 4 E4B | 17,9 GB | 8,9 GB | 4,5 GB | 2,5 GB | 2,2 GB |
| Gemma 4 12B | 26,7 GB | 13,4 GB | 6,7 GB | - | - |
| Gemma 4 26B A4B | 57,7 GB | 28,8 GB | 14,4 GB | - | - |
| Gemma 4 31B | 69,9 GB | 34,9 GB | 17,5 GB | - | - |
Bảng 1. Bộ nhớ GPU hoặc TPU gần đúng cần thiết để tải các mô hình Gemma 4 dựa trên số lượng tham số, mức độ lượng tử hoá và 20% chi phí tải thêm các thành phần. Các phiên bản dành cho thiết bị di động sử dụng LiteRT-LM.
Những điểm chính cần xem xét khi lập kế hoạch về bộ nhớ
- Cấu trúc hiệu quả (E2B và E4B): "E" là viết tắt của các thông số "hiệu quả". Các mô hình nhỏ hơn kết hợp tính năng Nhúng theo lớp (PLE) để tối đa hoá hiệu quả của tham số trong quá trình triển khai trên thiết bị. Thay vì thêm nhiều lớp hơn vào mô hình, PLE cung cấp cho mỗi lớp giải mã một lớp nhúng nhỏ riêng cho mọi mã thông báo. Các bảng nhúng này có kích thước lớn nhưng chỉ được dùng để tra cứu nhanh. Đó là lý do tổng bộ nhớ cần thiết để tải các trọng số tĩnh cao hơn so với số lượng tham số hiệu quả.
- Cấu trúc MoE (26B A4B): 26B là một mô hình Kết hợp các chuyên gia. Mặc dù chỉ kích hoạt 4 tỷ tham số cho mỗi mã thông báo trong quá trình tạo, nhưng tất cả 26 tỷ tham số phải được tải vào bộ nhớ để duy trì tốc độ định tuyến và suy luận nhanh. Đây là lý do khiến yêu cầu về bộ nhớ cơ sở của mô hình này gần với mô hình 26 tỷ tham số dày đặc hơn là mô hình 4 tỷ tham số.
- Chỉ trọng số cơ sở: Các số liệu ước tính trong bảng trước đó chỉ tính đến bộ nhớ cần thiết để tải trọng số mô hình tĩnh. Các số liệu này không bao gồm VRAM bổ sung cần thiết cho phần mềm hỗ trợ hoặc cửa sổ ngữ cảnh.
- Cửa sổ ngữ cảnh (Bộ nhớ đệm KV): Mức tiêu thụ bộ nhớ sẽ tăng lên một cách linh hoạt dựa trên tổng số mã thông báo trong câu lệnh của bạn và phản hồi được tạo. Cửa sổ ngữ cảnh lớn hơn đòi hỏi VRAM nhiều hơn đáng kể so với trọng số mô hình cơ sở.
- Chi phí tinh chỉnh: Yêu cầu về bộ nhớ để tinh chỉnh các mô hình Gemma cao hơn đáng kể so với suy luận tiêu chuẩn. Dấu vết chính xác của bạn sẽ phụ thuộc nhiều vào khung phát triển, kích thước lô và việc bạn đang sử dụng phương pháp điều chỉnh độ chính xác đầy đủ so với phương pháp Điều chỉnh hiệu quả về tham số (PEFT) như Thích ứng thứ hạng thấp (LoRA).
Huấn luyện dựa trên lượng tử hoá (QAT)
Đối với những hoạt động triển khai đòi hỏi hiệu suất tối đa mà không ảnh hưởng đến chất lượng, Gemma cung cấp các mô hình Huấn luyện nhận biết lượng tử hoá (QAT) chính thức.
Không giống như phương pháp Lượng tử hoá sau huấn luyện (PTQ) tiêu chuẩn, phương pháp này nén một mô hình được huấn luyện đầy đủ và có thể dẫn đến suy giảm chất lượng, QAT tích hợp mô phỏng lượng tử hoá vào chính quy trình huấn luyện. Điều này cho phép mô hình học cách bù đắp cho sự mất mát độ chính xác, dẫn đến các mô hình nhỏ hơn hoạt động gần như giống hệt với các đường cơ sở có độ chính xác cao.
Bảng định tuyến nhanh
| Công cụ triển khai mục tiêu | Hậu tố tải xuống | Trường hợp sử dụng chính |
|---|---|---|
| llama.cpp / LM Studio (Cục bộ) | {model-name}-qat-q4_0-gguf |
Triển khai cục bộ mà không cần thiết lập trên CPU, Apple Silicon hoặc GPU tiêu dùng. |
| vLLM / SGLang | MÁY CHỦ: {model-name}-qat-w4a16-ctTHIẾT BỊ DI ĐỘNG: {model-name}-qat-mobile-ct |
Suy luận thông lượng cao sử dụng trọng số 4 bit với các lượt kích hoạt 16 bit. |
| Giải mã suy đoán | MÔ HÌNH: {model-name}-qat-q4_0-unquantizedDRAFTER: {model-name}-qat-q4_0-unquantized-assistant |
Chạy một mô hình chính cùng với mô hình nháp MTP tương ứng để tăng tốc đáng kể quá trình tạo mã thông báo. Mô hình phải được lượng tử hoá. |
| Định dạng khác | {model-name}-qat-q4_0-unquantized |
Trọng số chưa được định lượng để chuyển đổi sang các định dạng khác (ví dụ: MLX) |
| Triển khai trên thiết bị di động (Bộ biến đổi) | {model-name}-qat-mobile-transformers |
Trọng số cạnh được tối ưu hoá cho các trường hợp sử dụng trên thiết bị di động. Chúng đóng vai trò là tài liệu tham khảo cho các định dạng khác. |
Các bộ sưu tập QAT chính thức trên Hugging Face
- collections/google/gemma-4-qat-q4-0
- Unquantized QAT Checkpoints (
-unquantized/-assistant): Trọng số bán chính xác được trích xuất trực tiếp từ quy trình QAT. Những mô hình này lý tưởng cho việc biên dịch tuỳ chỉnh ở giai đoạn sau, nghiên cứu hoặc chạy quy trình giải mã suy đoán bằng các mô hình bản nháp trợ lý. Có sẵn cho Gemma 4 E2B, E4B, 12B, 26B A4B và 31B. - GGUF (
-gguf): Các điểm kiểm tra có sẵn để tương thích ngay lập tức trên hệ sinh thái LLM cục bộ. Có sẵn cho Gemma 4 0 E2B, E4B, 12B, 26B A4B và 31B. - Tensor nén (
-w4a16-ct): Được chuyển đổi tuần tự một cách tự nhiên theo tiêu chuẩncompressed-tensorsđể tối ưu hoá dịch vụ đám mây có tính đồng thời cao. Có sẵn cho Gemma 4 E2B, E4B, 12B và 31B.
- Unquantized QAT Checkpoints (
- collections/google/gemma-4-qat-mobile
- Tối ưu hoá cho thiết bị di động (
-mobile-transformers/-mobile-ct): Được xây dựng trên một lược đồwNa8o8tuỳ chỉnh được thiết kế riêng cho các giới hạn về phần cứng của thiết bị di động. Phương pháp này sử dụng các lớp giải mã 2 bit được nhắm đến, bộ nhớ đệm KV được tối ưu hoá và các hoạt động kích hoạt tĩnh để tối đa hoá mức tiết kiệm RAM trên thiết bị mà không làm nghẽn bộ xử lý biên. Có sẵn cho Gemma 4 E2B và E4B.
- Tối ưu hoá cho thiết bị di động (
Bạn cũng có thể truy cập trực tiếp vào tất cả các điểm kiểm tra QAT chính thức của Gemma 4 trên Kaggle.
Các mô hình Gemma trước đây
Bạn có thể sử dụng các mô hình Gemma thế hệ trước, cũng có trên Kaggle và Hugging Face. Để biết thêm thông tin kỹ thuật về các mô hình Gemma trước đây, hãy xem các trang thẻ mô hình sau:
- Thẻ mô hình Gemma 3
- Thẻ mô hình Gemma 2
- Thẻ mô hình Gemma 1
Bạn đã sẵn sàng bắt đầu xây dựng? Bắt đầu sử dụng các mô hình Gemma!