Gemma 4 ra mắt với đầu vào văn bản, âm thanh và hình ảnh, đồng thời có cửa sổ ngữ cảnh dài lên đến 256 nghìn token! Tìm hiểu thêm

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tổng quan về mô hình DiffusionGemma

DiffusionGemma là một mô hình nguồn mở thử nghiệm, khám phá quá trình khuếch tán văn bản, một phương pháp tạo văn bản cực kỳ nhanh. Dựa trên kiến trúc Gemma 4 gồm 26 tỷ tham số (4 tỷ tham số đang hoạt động) của Mô hình kết hợp các chuyên gia (MoE), DiffusionGemma tạo ra các mã thông báo bằng cách sử dụng phương pháp khuếch tán rời rạc. Mô hình mã nguồn mở này là mô hình đa phương thức, xử lý dữ liệu đầu vào là văn bản, hình ảnh và video để tạo ra dữ liệu đầu ra là văn bản.

Được xây dựng trên nền tảng MoE, DiffusionGemma được thiết kế để cải thiện tốc độ tạo (số mã thông báo mỗi giây) trong khi vẫn có thể triển khai trên nhiều môi trường phần cứng. DiffusionGemma dựa trên những tiến bộ về kiến trúc và khả năng của Gemma 4, đồng thời giới thiệu một số tính năng cốt lõi:

Discrete Text Diffusion (Khuếch tán văn bản rời rạc): Chuyển từ việc tạo mã thông báo nhân quả truyền thống sang lấy mẫu đa canvas tự hồi quy theo khối. Mô hình này tạo văn bản bằng cách khử nhiễu lặp đi lặp lại các khối mã thông báo ("canvas") song song để tăng tốc độ giải mã một cách đáng kể.
Xử lý đa phương thức: Chấp nhận văn bản, hình ảnh (có tỷ lệ khung hình và độ phân giải thay đổi được) và dữ liệu đầu vào là video. (Lưu ý: Không hỗ trợ đầu vào âm thanh).
Cấu trúc bộ mã hoá-giải mã: Sử dụng bộ mã hoá tự hồi quy để xử lý và lưu vào bộ nhớ đệm bối cảnh của câu lệnh, kết hợp với tính năng khử nhiễu áp dụng cơ chế chú ý hai chiều trên canvas tạo.
Hiệu quả của Mô hình kết hợp các chuyên gia (MoE): Tận dụng thiết kế MoE thưa thớt dựa trên biến thể MoE 26B (4B đang hoạt động), cung cấp khả năng suy luận sâu với mức hao tổn tối thiểu. Khi được lượng tử hoá, mô hình này phù hợp với giới hạn VRAM 18 GB của GPU dành cho người tiêu dùng, rất lý tưởng để thực thi cục bộ.
Chế độ tư duy: Các kênh suy luận có thể định cấu hình được tích hợp sẵn cho phép mô hình suy nghĩ từng bước trước khi đưa ra câu trả lời cuối cùng.

Đánh đổi với các mô hình truyền thống

Mặc dù các mô hình ngôn ngữ truyền thống có hiệu suất cao cho các hoạt động triển khai đám mây quy mô lớn vì có thể xử lý hàng nghìn yêu cầu theo lô, nhưng việc chạy các mô hình này cục bộ cho một người dùng duy nhất sẽ khiến phần cứng không được sử dụng hết. DiffusionGemma giải quyết vấn đề này bằng cách tạo đồng thời toàn bộ khối 256 mã thông báo thay vì một mã thông báo tại một thời điểm, giúp tối đa hoá hiệu suất phần cứng cục bộ.

Tuy nhiên, phương pháp này chỉ dành cho mục đích sử dụng tại địa phương, có tính đồng thời thấp và hướng đến người tiêu dùng; vì khả năng giải mã song song của phương pháp này mang lại lợi nhuận giảm dần trong các khối lượng công việc trên đám mây có QPS cao, nên lợi thế về thông lượng là lớn nhất ở kích thước lô từ thấp đến trung bình trên một bộ tăng tốc duy nhất.

Cấu hình phân phát được đề xuất

Để có độ trễ và chất lượng tối ưu, bạn nên triển khai bằng các thông số mặc định sau đây cho phần Cài đặt lấy mẫu khuếch tán:

Tham số	Giá trị được đề xuất	Chức năng	Lý do
Số bước khử nhiễu tối đa	48	Giới hạn trên về số bước khử nhiễu cho mỗi canvas.	Giới hạn an toàn về số lượng bước khử nhiễu. Quá trình khử nhiễu sẽ dừng lại trong ít bước hơn khi bạn bật tính năng dừng thích ứng, thường là 12 đến 16 bước tuỳ thuộc vào tác vụ.
Lịch điều chỉnh nhiệt độ	Tuyến tính 0,8 -> 0,4	Lịch trình điều chỉnh nhiệt độ bắt đầu ở mức cao và giảm theo hàm của các bước khử nhiễu.	Nhiệt độ cao (0,8) khuyến khích khám phá sớm; nhiệt độ thấp (0,4) khoá các mã thông báo cuối cùng.
Dừng sớm thích ứng	Ngưỡng entropy: 0,005	Dừng thực thi sớm nếu A) entropy trung bình của mô hình trên canvas thấp hơn ngưỡng và B) nếu hai dự đoán liên tiếp của bộ khử nhiễu vẫn giống hệt nhau.	Các câu lệnh đơn giản hơn và các tác vụ có cấu trúc như mã yêu cầu ít bước khử nhiễu hơn, cho phép tốc độ linh hoạt theo số lượng mã thông báo mỗi giây dựa trên độ phức tạp của tác vụ.
Lựa chọn mã thông báo	Giới hạn entropy: 0,1	Ở mỗi bước, bộ lấy mẫu sẽ chọn các mã thông báo có entropy thấp nhất sao cho giới hạn thông tin chung của chúng nằm dưới giới hạn entropy. Trình lấy mẫu sẽ hoàn toàn loại bỏ nhiễu cho các mã thông báo không được chọn.	Đảm bảo chỉ những mã thông báo mà mô hình tương đối chắc chắn mới được chọn để tinh chỉnh canvas, để các mã thông báo khác được tinh chỉnh trong các bước khử nhiễu sau này.

Tải xuống trên Hugging Face Tải xuống trên Kaggle Truy cập trên Vertex

Truy cập vào các trọng số mô hình thử nghiệm (phát hành theo giấy phép Apache 2.0), cho phép bạn triển khai trọng số này trong các dự án và ứng dụng của riêng mình.

Tìm hiểu thêm về cấu trúc DiffusionGemma Dùng thử DiffusionGemma

Tinh chỉnh DiffusionGemma Triển khai DiffusionGemma