Tổng quan về mô hình Gemma 4

Gemma là một nhóm mô hình trí tuệ nhân tạo tạo sinh. Bạn có thể sử dụng các mô hình này trong nhiều tác vụ tạo sinh, bao gồm trả lời câu hỏi, tóm tắt và suy luận. Các mô hình Gemma được cung cấp với trọng số mở và cho phép sử dụng thương mại có trách nhiệm, giúp bạn điều chỉnh và triển khai các mô hình này trong các dự án và ứng dụng của riêng mình.

Nhóm mô hình Gemma 4 bao gồm 3 kiến trúc riêng biệt được điều chỉnh cho các yêu cầu cụ thể về phần cứng:

  • Kích thước nhỏ: Mô hình tham số hiệu quả 2B và 4B được xây dựng để triển khai trên các thiết bị siêu di động, thiết bị biên và trình duyệt (ví dụ: Pixel, Chrome).
  • Mật độ cao: Mô hình tham số 31B mật độ cao mạnh mẽ giúp thu hẹp khoảng cách giữa hiệu suất cấp máy chủ và quá trình thực thi cục bộ.
  • Mixture-of-Experts: Mô hình MoE 26B có hiệu suất cao được thiết kế để suy luận nâng cao với thông lượng cao.

Bạn có thể tải các mô hình Gemma 4 xuống từ KaggleHugging Face. Để biết thêm thông tin kỹ thuật về Gemma 4, hãy xem Thẻ mô hình. Các phiên bản trước của mô hình Gemma cốt lõi cũng có sẵn để tải xuống. Để biết thêm thông tin, hãy xem Các mô hình Gemma trước đây.

Tải xuống trên Kaggle Tải xuống trên Hugging Face

Tính năng

  • Suy luận: Tất cả các mô hình trong nhóm đều được thiết kế để có khả năng suy luận cao, với các chế độ tư duy có thể định cấu hình.
  • Đa phương thức mở rộng: Xử lý văn bản, hình ảnh với tỷ lệ khung hình và độ phân giải có thể thay đổi (tất cả các mô hình), video, và âm thanh (được tích hợp sẵn trên các mô hình E2B và E4B).
  • Cửa sổ ngữ cảnh tăng lên: Các mô hình nhỏ có cửa sổ ngữ cảnh 128K, trong khi các mô hình trung bình hỗ trợ 256K.
  • Khả năng viết mã và khả năng của tác nhân nâng cao: Đạt được những cải tiến đáng kể trong các điểm chuẩn viết mã cùng với tính năng hỗ trợ gọi hàm tích hợp, giúp các tác nhân tự động có khả năng cao.
  • Hỗ trợ câu lệnh hệ thống gốc: Gemma 4 giới thiệu tính năng hỗ trợ tích hợp cho vai trò hệ thống, cho phép các cuộc trò chuyện có cấu trúc và có thể kiểm soát hơn.

Kích thước tham số và lượng tử hoá

Các mô hình Gemma 4 có 4 kích thước tham số: E2B, E4B, 31B và 26B A4B. Bạn có thể sử dụng các mô hình này với độ chính xác mặc định (16 bit) hoặc với độ chính xác thấp hơn bằng cách sử dụng lượng tử hoá. Các kích thước và độ chính xác khác nhau thể hiện một tập hợp các điểm đánh đổi cho ứng dụng AI của bạn. Các mô hình có số lượng tham số và bit cao hơn (độ chính xác cao hơn) thường có khả năng cao hơn, nhưng tốn kém hơn khi chạy về chu kỳ xử lý, chi phí bộ nhớ và mức tiêu thụ điện. Các mô hình có số lượng tham số và bit thấp hơn (độ chính xác thấp hơn) có ít khả năng hơn, nhưng có thể đủ cho tác vụ AI của bạn.

Yêu cầu về bộ nhớ suy luận của Gemma 4

Bảng sau đây trình bày chi tiết các yêu cầu về bộ nhớ GPU hoặc TPU gần đúng để chạy suy luận với từng kích thước của các phiên bản mô hình Gemma 4.

Thông số BF16 (16 bit) SFP8 (8 bit) Q4_0 (4 bit)
Gemma 4 E2B 9,6 GB 4,6 GB 3,2 GB
Gemma 4 E4B 15 GB 7,5 GB 5 GB
Gemma 4 31B 58,3 GB 30,4 GB 17,4 GB
Gemma 4 26B A4B 48 GB 25 GB 15,6 GB

Bảng 1. Bộ nhớ GPU hoặc TPU gần đúng cần thiết để tải các mô hình Gemma 4 dựa trên số lượng tham số và mức lượng tử hoá.

Những điểm chính cần xem xét khi lập kế hoạch bộ nhớ

  • Kiến trúc hiệu quả (E2B và E4B): "E" là viết tắt của tham số "hiệu quả". Các mô hình nhỏ hơn kết hợp tính năng Nhúng theo lớp (PLE) để tối đa hoá hiệu quả tham số trong quá trình triển khai trên thiết bị. Thay vì thêm nhiều lớp vào mô hình, PLE cung cấp cho mỗi lớp bộ giải mã một bản nhúng nhỏ riêng cho mọi mã thông báo. Các bảng nhúng này lớn nhưng chỉ được dùng để tra cứu nhanh. Đó là lý do tổng bộ nhớ cần thiết để tải trọng số tĩnh cao hơn số lượng tham số hiệu quả.
  • Kiến trúc MoE (26B A4B): 26B là mô hình Hỗn hợp chuyên gia. Mặc dù chỉ kích hoạt 4 tỷ tham số cho mỗi mã thông báo trong quá trình tạo, nhưng tất cả 26 tỷ tham số phải được tải vào bộ nhớ để duy trì tốc độ định tuyến và suy luận nhanh. Đó là lý do yêu cầu về bộ nhớ cơ sở của mô hình này gần với mô hình 26B mật độ cao hơn là mô hình 4B.
  • Chỉ trọng số cơ sở: Các số liệu ước tính trong bảng trước đó chỉ tính đến bộ nhớ cần thiết để tải trọng số mô hình tĩnh. Các số liệu này không bao gồm VRAM bổ sung cần thiết cho phần mềm hỗ trợ hoặc cửa sổ ngữ cảnh.
  • Cửa sổ ngữ cảnh (Bộ nhớ đệm KV): Mức tiêu thụ bộ nhớ sẽ tăng lên một cách linh hoạt dựa trên tổng số mã thông báo trong câu lệnh và phản hồi được tạo. Các cửa sổ ngữ cảnh lớn hơn đòi hỏi nhiều VRAM hơn đáng kể so với trọng số mô hình cơ sở.
  • Chi phí điều chỉnh: Yêu cầu về bộ nhớ để điều chỉnh các mô hình Gemma cao hơn đáng kể so với suy luận tiêu chuẩn. Dấu chân chính xác của bạn sẽ phụ thuộc nhiều vào khung phát triển, kích thước lô và việc bạn đang sử dụng phương thức điều chỉnh độ chính xác đầy đủ so với phương thức Điều chỉnh hiệu quả tham số (PEFT) như Thích ứng thứ hạng thấp (LoRA).

Các mô hình Gemma trước đây

Bạn có thể sử dụng các thế hệ mô hình Gemma trước đây, cũng có sẵn trên KaggleHugging Face. Để biết thêm thông tin kỹ thuật về các mô hình Gemma trước đây, hãy xem các trang thẻ mô hình sau:

Bạn đã sẵn sàng bắt đầu xây dựng? Bắt đầu sử dụng các mô hình Gemma!