Tăng tốc Gemma 4 bằng tính năng Dự đoán nhiều mã thông báo

Trong Gemma 4, Dự đoán nhiều mã thông báo (MTP) là cấu trúc cụ thể được dùng để bật tính năng Giải mã suy đoán có hiệu suất cao. Giải mã suy đoán là một kỹ thuật giúp tăng tốc suy luận trong các mô hình ngôn ngữ lớn. Thay vì chỉ dựa vào mô hình mục tiêu lớn để tạo mã thông báo tự hồi quy (tạo từng mã thông báo một, trong đó mỗi mã thông báo mới phụ thuộc vào các mã thông báo trước đó), "mô hình nháp" nhỏ hơn và nhanh hơn sẽ dự đoán trước một số mã thông báo. Sau đó, mô hình đích sẽ xác minh song song các mã thông báo được tạo nháp này. Nếu mô hình mục tiêu từ chối một mã thông báo được tạo nháp, thì mô hình đó vẫn tạo ra mã thông báo chính xác cho vị trí đó (đảm bảo rằng bước này không bị lãng phí) và mô hình nháp tiếp tục dự đoán từ mã thông báo chính xác mới đó.

Gemma 4 triển khai MTP bằng cách mở rộng mô hình cơ sở với mô hình nháp nhỏ hơn và nhanh hơn này. Mô hình nháp này không độc lập vì nó dùng chung bảng nhúng đầu vào với mô hình mục tiêu và tạo trực tiếp dựa trên các lượt kích hoạt lớp cuối cùng của mô hình đó. Điều này giúp tăng tốc độ giải mã đáng kể trong khi vẫn đảm bảo chất lượng giống hệt như quá trình tạo tự hồi quy tiêu chuẩn, giúp các điểm kiểm tra này trở nên hoàn hảo cho các ứng dụng có độ trễ thấp và trên thiết bị.

Giải mã suy đoán hoạt động bằng cách phác thảo một số mã thông báo và xác minh chúng trong một lần chuyển tiếp. Đối với các mô hình dày đặc, cùng một trọng số được dùng cho mọi mã thông báo, vì vậy, việc xác minh nhiều mã thông báo nháp sẽ làm tăng mức hao tổn tối thiểu. Các mô hình Kết hợp các chuyên gia (MoE) như Gemma 4 26B A4B hoạt động theo cách khác. Mỗi mã thông báo có thể kích hoạt các chuyên gia khác nhau, vì vậy, việc xác minh mã thông báo được tạo nháp có thể yêu cầu tải thêm trọng số của chuyên gia từ bộ nhớ, bù đắp cho lợi ích từ việc tạo nháp. Ở kích thước lô lớn hơn, thường có nhiều điểm trùng lặp hơn ở các chuyên gia được kích hoạt trên các chuỗi, giúp cải thiện khả năng sử dụng lại các trọng số đã tải. Ở kích thước lô 1, độ trùng lặp này bị hạn chế, đó là lý do tại sao trình soạn thảo 26B A4B có thể không mang lại tốc độ cao hơn trên các nền tảng phần cứng không có khả năng song song hoá tốt.

Các điểm cải tiến về MTP

Gemma 4 giới thiệu một số điểm cải tiến cho quy trình giải mã suy đoán tiêu chuẩn nhằm cải thiện chất lượng của các mã thông báo được soạn thảo và hiệu quả:

  • Shared Input Embeddings (Nhúng đầu vào dùng chung): Mô hình bản nháp chia sẻ bảng nhúng đầu vào với mô hình mục tiêu.
  • Kích hoạt mục tiêu: Mô hình nháp sử dụng các lượt kích hoạt từ lớp cuối cùng của mô hình mục tiêu, nối các lượt kích hoạt đó với các mục nhúng mã thông báo và chiếu các lượt kích hoạt đó xuống phương diện của mô hình nháp.
  • Trình nhúng hiệu quả: Để tránh hoạt động tốn kém là dự đoán trên toàn bộ từ vựng, mô hình sẽ nhóm các mã thông báo tương tự thành các cụm. Trước tiên, mô hình này xác định các cụm có khả năng cao nhất, sau đó chỉ giới hạn các phép tính cuối cùng ở những mã thông báo trong các cụm đã chọn đó (chỉ E2B và E4B).