Gemma 4 ra mắt với đầu vào văn bản, âm thanh và hình ảnh, đồng thời có cửa sổ ngữ cảnh dài lên đến 256 nghìn token! Tìm hiểu thêm

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tổng quan về mô hình Gemma 4

Gemma là một nhóm các mô hình trí tuệ nhân tạo tạo sinh và bạn có thể sử dụng các mô hình này trong nhiều nhiệm vụ tạo nội dung, bao gồm trả lời câu hỏi, tóm tắt và suy luận. Các mô hình Gemma được cung cấp với trọng số mở và cho phép sử dụng thương mại một cách có trách nhiệm, cho phép bạn điều chỉnh và triển khai các mô hình này trong các dự án và ứng dụng của riêng mình.

Nhóm mô hình Gemma 4 bao gồm 3 cấu trúc riêng biệt được điều chỉnh cho các yêu cầu cụ thể về phần cứng:

Kích thước nhỏ: Các mô hình tham số hiệu quả 2B và 4B được tạo cho việc triển khai trên thiết bị di động siêu nhỏ gọn, thiết bị biên và trình duyệt (ví dụ: Pixel, Chrome).
Dense: Mô hình Dense mạnh mẽ với 31 tỷ tham số, giúp thu hẹp khoảng cách giữa hiệu suất cấp máy chủ và việc thực thi cục bộ.
Mixture-of-Experts: Mô hình MoE 26 tỷ tham số có hiệu suất cao, được thiết kế để có thông lượng cao và khả năng suy luận nâng cao.

Bạn có thể tải các mô hình Gemma 4 xuống từ Kaggle và Hugging Face. Để biết thêm thông tin kỹ thuật về Gemma 4, hãy xem Thẻ mô hình. Bạn cũng có thể tải các phiên bản trước của mô hình cơ sở Gemma xuống. Để biết thêm thông tin, hãy xem phần Các mô hình Gemma trước đây.

Tải xuống trên Kaggle Tải xuống trên Hugging Face

Tính năng

Lý do: Tất cả các mô hình trong họ đều được thiết kế để có khả năng suy luận cao, với các chế độ tư duy có thể định cấu hình.
Đa phương thức mở rộng: Xử lý văn bản, hình ảnh với tỷ lệ khung hình và độ phân giải thay đổi (tất cả các mô hình), video và âm thanh (được tích hợp sẵn trên các mô hình E2B và E4B).
Tăng kích thước cửa sổ ngữ cảnh: Các mô hình nhỏ có cửa sổ ngữ cảnh 128K, trong khi các mô hình vừa hỗ trợ 256K.
Khả năng lập trình và tác nhân nâng cao: Đạt được những cải tiến đáng kể trong các điểm chuẩn về lập trình cùng với khả năng hỗ trợ gọi hàm tích hợp sẵn, cung cấp sức mạnh cho các tác nhân tự quản có năng lực cao.
Hỗ trợ câu lệnh hệ thống gốc: Gemma 4 giới thiệu tính năng hỗ trợ tích hợp cho vai trò hệ thống, cho phép các cuộc trò chuyện có cấu trúc và dễ kiểm soát hơn.
Dự đoán nhiều token: Tất cả các mô hình Gemma 4 (E2B, E4B, 31B và 26B A4B) đều có một mô hình nháp chuyên dụng để giải mã suy đoán, giúp suy luận nhanh hơn đáng kể mà không làm giảm chất lượng.

Kích thước và lượng tử hoá tham số

Các mô hình Gemma 4 có 4 kích thước tham số: E2B, E4B, 31B và 26B A4B. Bạn có thể sử dụng các mô hình này với độ chính xác mặc định (16 bit) hoặc với độ chính xác thấp hơn bằng cách sử dụng lượng tử hoá. Các kích thước và độ chính xác khác nhau thể hiện một tập hợp các điểm đánh đổi cho ứng dụng AI của bạn. Các mô hình có nhiều tham số và số lượng bit hơn (độ chính xác cao hơn) thường có khả năng hơn, nhưng tốn kém hơn khi chạy về chu kỳ xử lý, chi phí bộ nhớ và mức tiêu thụ điện năng. Các mô hình có ít tham số và số lượng bit hơn (độ chính xác thấp hơn) có ít khả năng hơn, nhưng có thể đủ cho tác vụ AI của bạn.

Yêu cầu về bộ nhớ suy luận của Gemma 4

Bảng sau đây trình bày chi tiết các yêu cầu về bộ nhớ GPU hoặc TPU gần đúng để chạy suy luận với từng kích thước của các phiên bản mô hình Gemma 4.

Thông số	BF16 (16 bit)	SFP8 (8 bit)	Q4_0 (4 bit)
Gemma 4 E2B	9,6 GB	4,6 GB	3,2 GB
Gemma 4 E4B	15 GB	7,5 GB	5 GB
Gemma 4 31B	58,3 GB	30,4 GB	17,4 GB
Gemma 4 26B A4B	48 GB	25 GB	15,6 GB

Bảng 1. Bộ nhớ GPU hoặc TPU gần đúng cần thiết để tải các mô hình Gemma 4 dựa trên số lượng tham số và mức độ lượng tử hoá.

Những điểm chính cần xem xét khi lập kế hoạch sử dụng bộ nhớ

Cấu trúc hiệu quả (E2B và E4B): "E" là viết tắt của các thông số "hiệu quả". Các mô hình nhỏ hơn kết hợp tính năng Nhúng theo lớp (PLE) để tối đa hoá hiệu quả của tham số trong quá trình triển khai trên thiết bị. Thay vì thêm nhiều lớp hơn vào mô hình, PLE cung cấp cho mỗi lớp giải mã một lớp nhúng nhỏ riêng cho mọi mã thông báo. Các bảng nhúng này có kích thước lớn nhưng chỉ được dùng để tra cứu nhanh. Đó là lý do tổng bộ nhớ cần thiết để tải các trọng số tĩnh cao hơn so với số lượng tham số hiệu quả.
Cấu trúc MoE (26B A4B): 26B là một mô hình Kết hợp các chuyên gia. Mặc dù chỉ kích hoạt 4 tỷ tham số cho mỗi mã thông báo trong quá trình tạo, nhưng tất cả 26 tỷ tham số phải được tải vào bộ nhớ để duy trì tốc độ định tuyến và suy luận nhanh. Đây là lý do khiến yêu cầu về bộ nhớ cơ sở của mô hình này gần với mô hình 26 tỷ tham số dày đặc hơn là mô hình 4 tỷ tham số.
Chỉ trọng số cơ sở: Các giá trị ước tính trong bảng trước đó chỉ tính đến bộ nhớ cần thiết để tải trọng số mô hình tĩnh. Chúng không bao gồm VRAM bổ sung cần thiết để hỗ trợ phần mềm hoặc cửa sổ ngữ cảnh.
Cửa sổ ngữ cảnh (Bộ nhớ đệm KV): Mức tiêu thụ bộ nhớ sẽ tăng lên một cách linh hoạt dựa trên tổng số mã thông báo trong câu lệnh của bạn và phản hồi được tạo. Cửa sổ ngữ cảnh lớn hơn đòi hỏi VRAM nhiều hơn đáng kể so với trọng số mô hình cơ sở.
Chi phí tinh chỉnh: Yêu cầu về bộ nhớ để tinh chỉnh các mô hình Gemma cao hơn đáng kể so với suy luận tiêu chuẩn. Dấu vết chính xác của bạn sẽ phụ thuộc nhiều vào khung phát triển, kích thước lô và việc bạn đang sử dụng phương pháp điều chỉnh độ chính xác đầy đủ so với phương pháp Điều chỉnh hiệu quả về tham số (PEFT) như Thích ứng thứ hạng thấp (LoRA).

Các mô hình Gemma trước đây

Bạn có thể sử dụng các mô hình Gemma thế hệ trước, cũng có trên Kaggle và Hugging Face. Để biết thêm thông tin kỹ thuật về các mô hình Gemma trước đây, hãy xem các trang thẻ mô hình sau:

Bạn đã sẵn sàng bắt đầu xây dựng? Bắt đầu sử dụng các mô hình Gemma!