Gemma 4 ra mắt với đầu vào văn bản, âm thanh và hình ảnh, đồng thời có cửa sổ ngữ cảnh dài lên đến 256 nghìn token! Tìm hiểu thêm

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Thẻ mô hình DiffusionGemma

Hugging Face | GitHub | Blog ra mắt | Tài liệu
Giấy phép: Apache 2.0 | Tác giả: Google DeepMind

DiffusionGemma là một mô hình tạo sinh do Google DeepMind xây dựng. Dựa trên cấu trúc Gemma 26B A4B Mixture-of-Experts (MoE) 4, DiffusionGemma tạo token bằng cách khuếch tán rời rạc. Mô hình trọng số mở này là mô hình đa phương thức, xử lý dữ liệu đầu vào dạng văn bản, hình ảnh và video để tạo ra kết quả đầu ra dạng văn bản.

Được xây dựng trên nền tảng MoE, DiffusionGemma được thiết kế để cải thiện tốc độ tạo (token mỗi giây) trong khi vẫn có thể triển khai trên nhiều môi trường phần cứng. DiffusionGemma dựa trên những tiến bộ về cấu trúc và khả năng của Gemma 4, giới thiệu một số tính năng cốt lõi:

Khuếch tán văn bản rời rạc – Chuyển từ tự hồi quy theo từng token sang lấy mẫu đa canvas tự hồi quy theo khối. Mô hình này tạo văn bản bằng cách lặp lại việc khử nhiễu các khối token (một "canvas") song song, giúp tăng đáng kể tốc độ giải mã.
Xử lý dữ liệu đầu vào đa phương thức – Xử lý dữ liệu đầu vào dạng văn bản xen kẽ, hình ảnh (có hỗ trợ độ phân giải và tỷ lệ khung hình biến thiên) và video để tạo ra kết quả đầu ra dạng văn bản.
Cấu trúc bộ mã hoá-bộ giải mã – Sử dụng bộ mã hoá tự hồi quy để xử lý và lưu vào bộ nhớ đệm ngữ cảnh câu lệnh, kết hợp với bộ giải mã áp dụng cơ chế chú ý hai chiều trên canvas tạo.
Hiệu quả của Mixture-of-Experts (MoE) – Tận dụng thiết kế MoE thưa thớt (8 chuyên gia đang hoạt động trong tổng số 128 chuyên gia) để cung cấp khả năng suy luận mạnh mẽ trong khi vẫn duy trì mức sử dụng bộ nhớ thấp phù hợp để thực thi cục bộ.
Chế độ tư duy (Suy luận) – Được thiết kế như một công cụ suy luận có khả năng cao, với các chế độ tư duy có thể định cấu hình.
Tối ưu hoá cho suy luận kích thước lô nhỏ – Được thiết kế đặc biệt để tạo tốc độ cao, độ trễ thấp trên một bộ tăng tốc có khả năng.
Hỗ trợ câu lệnh hệ thống gốc – Tương tự như Gemma 4, mô hình này hỗ trợ cập nhật vai trò system, cho phép các cuộc trò chuyện có cấu trúc và có thể kiểm soát hơn.

Tổng quan về mô hình

DiffusionGemma được thiết kế để giảm các nút thắt tuần tự của các mô hình ngôn ngữ nhân quả tiêu chuẩn. Mô hình này sử dụng cấu trúc bộ mã hoá-bộ giải mã được tối ưu hoá đặc biệt cho tốc độ suy luận.

Bộ mã hoá hoạt động ở chế độ điền trước, xử lý câu lệnh ban đầu và tạo bộ nhớ đệm KV. Sau đó, bộ giải mã sử dụng cơ chế chú ý hai chiều để xử lý một khối token đầu vào (một "canvas"), truy cập ngữ cảnh được lưu vào bộ nhớ đệm thông qua cơ chế chú ý chéo.

Trong quá trình suy luận, DiffusionGemma tận dụng việc lấy mẫu đa canvas. Thay vì tạo từng token một, mô hình này lặp lại việc khử nhiễu một khối token đầy đủ bằng cách sử dụng bộ lấy mẫu khuếch tán. Sau khi một canvas được khử nhiễu hoàn toàn, canvas đó sẽ được bộ mã hoá xử lý và thêm vào bộ nhớ đệm KV. Sau đó, mô hình sẽ tạo canvas tiếp theo. Phương pháp tự hồi quy theo khối này giúp tạo văn bản với tốc độ cao hơn.

DiffusionGemma

Kết quả đo điểm chuẩn

Các mô hình này được đánh giá dựa trên một tập hợp lớn các tập dữ liệu và chỉ số khác nhau để bao gồm nhiều khía cạnh của việc tạo văn bản. Kết quả đánh giá được đánh dấu trong bảng là dành cho các mô hình được điều chỉnh theo hướng dẫn, với bộ lấy mẫu Entropy Bound (EB) được đề xuất (xem Các phương pháp hay nhất bên dưới).

Điểm chuẩn	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77,6%	82,6%
AIME 2026 không có công cụ	69,1%	88,3%
LiveCodeBench v6	69,1%	77,1%
Codeforces ELO	1429	1718
GPQA Diamond	73,2%	82,3%
Tau2 (trung bình trên 3)	56,2%	68,2%
HLE không có công cụ	11,0%	8,7%
HLE có tìm kiếm	11,9%	17,2%
BigBench Extra Hard	47,6%	64,8%
MMMLU	81,5%	86,3%
Vision
MMMU Pro	54,3%	73,8%
OmniDocBench 1.5 (khoảng cách chỉnh sửa trung bình, càng thấp càng tốt)	0,319	0,149
MATH-Vision	70,5%	82,4%
MedXPertQA MM	49,0%	58,1%
Ngữ cảnh dài
MRCR v2 8 kim 128 nghìn (trung bình)	32,0%	44,1%

Các khả năng cốt lõi

DiffusionGemma xử lý nhiều tác vụ trên văn bản và hình ảnh. Các khả năng chính bao gồm:

Tạo tốc độ cao – khử nhiễu song song 256 token thông qua việc lấy mẫu khuếch tán giúp đạt được độ trễ thấp bằng cách tạo 15-20 token mỗi lần chuyển tiếp, mở ra tốc độ tạo cho mỗi người dùng vượt quá 1100 token mỗi giây trong chế độ cài đặt kích thước lô thấp (H100, FP8).
Tính toán thời gian suy luận thích ứng – Các câu lệnh đơn giản hơn và các tác vụ có cấu trúc như mã nguồn đòi hỏi ít bước khử nhiễu hơn, cho phép tốc độ token mỗi giây linh hoạt dựa trên độ phức tạp của tác vụ.
Tư duy – Chế độ suy luận tích hợp cho phép mô hình suy nghĩ từng bước trước khi trả lời.
Ngữ cảnh dài – Cửa sổ ngữ cảnh có tối đa 256 nghìn token.
Hiểu hình ảnh – Phát hiện đối tượng, Phân tích cú pháp tài liệu/PDF, hiểu màn hình và giao diện người dùng, hiểu biểu đồ, Nhận dạng ký tự quang học (OCR) (bao gồm cả đa ngôn ngữ), nhận dạng chữ viết tay và chỉ trỏ. Hình ảnh có thể được xử lý ở nhiều độ phân giải và tỷ lệ khung hình.
Hiểu video – Phân tích và mô tả nội dung video bằng cách xử lý các chuỗi khung hình.
Dữ liệu đầu vào đa phương thức xen kẽ – Kết hợp hình ảnh, video và văn bản trong một câu lệnh để suy luận dựa trên ngữ cảnh.
Gọi hàm – Hỗ trợ gốc cho việc sử dụng công cụ có cấu trúc, cho phép quy trình công việc của trợ lý AI.
Lập trình và suy luận – Có khả năng tạo mã, hoàn thành mã và suy luận logic từng bước.
Đa ngôn ngữ – Hỗ trợ sẵn 35 ngôn ngữ trở lên, được huấn luyện trước trên 140 ngôn ngữ trở lên.

Các phương pháp hay nhất

Để có hiệu suất tốt nhất, hãy sử dụng các cấu hình và phương pháp hay nhất sau:

1. Cài đặt lấy mẫu khuếch tán

Sử dụng cấu hình lấy mẫu tiêu chuẩn sau đây trên tất cả các trường hợp sử dụng:

Phương pháp: Lấy mẫu khuếch tán với Khử nhiễu có giới hạn Entropy và Dừng thích ứng.
Cấu hình lấy mẫu:
- Số bước khử nhiễu tối đa = 48
- Lịch nhiệt độ (để định hình logit): Suy giảm tuyến tính từ 0,8 → 0,4
- Chọn token: Ở mỗi bước, bộ lấy mẫu sẽ chọn các token có entropy thấp nhất sao cho giới hạn thông tin chung của chúng nằm dưới giới hạn entropy = 0,1
- Khử nhiễu token: Bộ lấy mẫu khử nhiễu hoàn toàn các token không được chọn
Dừng thích ứng: Quá trình lấy mẫu sẽ kết thúc sớm nếu và chỉ nếu cả hai điều kiện sau đây được đáp ứng đồng thời:
- Dự đoán đáng tin cậy: Entropy trung bình của mô hình trên canvas thấp hơn ngưỡng entropy = 0,005
- Dự đoán ổn định: Các dự đoán token có xác suất cao nhất vẫn giống nhau trong hai bước khử nhiễu liên tiếp

2. Cấu hình chế độ tư duy

Tương tự như các mô hình Gemma 4, chúng tôi sử dụng các vai trò system, assistant và user tiêu chuẩn. Để quản lý đúng quy trình tư duy, hãy sử dụng các token điều khiển sau:

Kích hoạt tư duy: Tư duy được kích hoạt bằng cách thêm token <|think|>vào đầu câu lệnh hệ thống. Để tắt tư duy, hãy xoá token (lưu ý rằng kênh tư duy trống vẫn có thể được phát ra).
Tạo tiêu chuẩn: Khi tư duy được kích hoạt, mô hình sẽ đưa ra quy trình suy luận nội bộ, sau đó là câu trả lời cuối cùng theo cấu trúc sau: <|channel>thought\n[Internal reasoning]<channel|>.
Hành vi tư duy bị tắt: Nếu tư duy bị tắt, mô hình vẫn sẽ tạo các thẻ nhưng với một khối tư duy trống: <|channel>thought\n<channel|>[Final answer].

Xin lưu ý rằng nhiều thư viện như transformer sẽ xử lý sự phức tạp của mẫu trò chuyện cho bạn.

3. Cuộc trò chuyện nhiều lượt

Không có nội dung tư duy trong lịch sử: Trong các cuộc trò chuyện nhiều lượt, kết quả đầu ra của mô hình trong lịch sử chỉ nên bao gồm câu trả lời cuối cùng. Không được thêm suy nghĩ từ các lượt mô hình trước đó trước khi lượt người dùng tiếp theo bắt đầu.

4. Thứ tự phương thức

Để có hiệu suất tối ưu với dữ liệu đầu vào đa phương thức, hãy đặt nội dung hình ảnh trước văn bản trong câu lệnh của bạn.

5. Độ phân giải hình ảnh biến thiên

Ngoài tỷ lệ khung hình biến thiên, DiffusionGemma hỗ trợ độ phân giải hình ảnh biến thiên thông qua ngân sách token hình ảnh có thể định cấu hình, kiểm soát số lượng token được sử dụng để biểu thị một hình ảnh. Ngân sách token cao hơn sẽ giữ lại nhiều chi tiết hình ảnh hơn với chi phí tính toán bổ sung, trong khi ngân sách thấp hơn cho phép suy luận nhanh hơn cho các tác vụ không yêu cầu hiểu chi tiết.

Các ngân sách token được hỗ trợ là: 70, 140, 280, 560 và 1120.
- Sử dụng ngân sách thấp hơn cho việc phân loại, chú thích hoặc hiểu video, trong đó suy luận nhanh hơn và xử lý nhiều khung hình quan trọng hơn chi tiết.
- Sử dụng ngân sách cao hơn cho các tác vụ như Nhận dạng ký tự quang học (OCR), phân tích cú pháp tài liệu hoặc đọc văn bản nhỏ.

6. Thời lượng video

Tất cả các mô hình đều hỗ trợ dữ liệu đầu vào dạng hình ảnh và có thể xử lý video dưới dạng khung hình. Video hỗ trợ tối đa 60 giây với giả định rằng hình ảnh được xử lý ở tốc độ một khung hình mỗi giây.

Dữ liệu mô hình

Dữ liệu được sử dụng để huấn luyện mô hình và cách xử lý dữ liệu.

Tập dữ liệu huấn luyện

Tập dữ liệu huấn luyện trước của chúng tôi là một tập hợp dữ liệu đa dạng, quy mô lớn bao gồm nhiều lĩnh vực và phương thức, bao gồm tài liệu web, mã nguồn, hình ảnh, âm thanh, với ngày cắt là tháng 1 năm 2025. Sau đây là các thành phần chính:

Tài liệu web: Một tập hợp đa dạng các văn bản trên web đảm bảo mô hình được tiếp xúc với nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Tập dữ liệu huấn luyện bao gồm nội dung bằng hơn 140 ngôn ngữ.
Mã nguồn: Việc cho mô hình tiếp xúc với mã nguồn giúp mô hình học được cú pháp và mẫu của các ngôn ngữ lập trình, giúp cải thiện khả năng tạo mã và hiểu các câu hỏi liên quan đến mã.
Toán học: Việc huấn luyện trên văn bản toán học giúp mô hình học được suy luận logic, biểu diễn bằng ký hiệu và giải quyết các truy vấn toán học.
Hình ảnh: Nhiều hình ảnh cho phép mô hình thực hiện các tác vụ phân tích hình ảnh và trích xuất dữ liệu hình ảnh.

Việc kết hợp các nguồn dữ liệu đa dạng này là rất quan trọng để huấn luyện một mô hình đa phương thức mạnh mẽ có thể xử lý nhiều tác vụ và định dạng dữ liệu khác nhau.

Xử lý trước dữ liệu

Sau đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu huấn luyện:

Lọc nội dung xâm hại tình dục trẻ em (CSAM): Quy trình lọc CSAM (Child Sexual Abuse Material) nghiêm ngặt đã được áp dụng ở nhiều giai đoạn trong quá trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
Lọc dữ liệu nhạy cảm: Trong quá trình tạo mô hình Gemma được huấn luyện trước an toàn và đáng tin cậy, các kỹ thuật tự động đã được sử dụng để lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập dữ liệu huấn luyện.
Các phương pháp khác: Lọc dựa trên chất lượng và độ an toàn của nội dung theo chính sách của chúng tôi.

Đạo đức và an toàn

Khi các mô hình mở trở thành trung tâm của cơ sở hạ tầng doanh nghiệp, nguồn gốc và tính bảo mật là tối quan trọng. Do Google DeepMind phát triển, DiffusionGemma trải qua các quy trình đánh giá an toàn nghiêm ngặt tương tự như các mô hình Gemini độc quyền của chúng tôi.

Phương pháp đánh giá

DiffusionGemma được phát triển với sự hợp tác của các nhóm nội bộ về an toàn và AI có trách nhiệm. Một loạt các đánh giá tự động cũng như đánh giá thủ công đã được thực hiện để giúp cải thiện độ an toàn của mô hình. Các đánh giá này phù hợp với nguyên tắc về AI của Google, cũng như các chính sách an toàn nhằm ngăn chặn các mô hình AI tạo sinh của chúng tôi tạo ra nội dung gây hại, bao gồm:

Nội dung liên quan đến nội dung xâm hại tình dục trẻ em và bóc lột trẻ em
Nội dung nguy hiểm (ví dụ: khuyến khích tự tử hoặc hướng dẫn các hoạt động có thể gây hại trong thế giới thực)
Nội dung khiêu dâm
Lời nói hận thù (ví dụ: hạ thấp nhân phẩm của các thành viên trong các nhóm người được bảo vệ)
Quấy rối (ví dụ: khuyến khích bạo lực đối với người khác)

Kết quả đánh giá

Đối với tất cả các lĩnh vực kiểm thử an toàn, chúng tôi nhận thấy những cải tiến lớn ở tất cả các danh mục an toàn nội dung so với các thế hệ mô hình Gemma trước đó. Nhìn chung, DiffusionGemma, giống như các mô hình Gemma 4, hoạt động hiệu quả hơn đáng kể so với các mô hình Gemma 3 và 3n trong việc cải thiện độ an toàn, đồng thời giữ cho số lượng từ chối không chính đáng ở mức thấp. Tất cả các thử nghiệm đều được thực hiện một cách có chủ ý mà không có bộ lọc an toàn để đánh giá các khả năng thô và hành vi cơ bản của mô hình. Đối với cả chuyển văn bản thành văn bản và hình ảnh sang văn bản, cũng như trên tất cả các kích thước mô hình, mô hình này tạo ra số lượng vi phạm chính sách tối thiểu và cho thấy những cải tiến đáng kể so với các mô hình Gemma trước đó.

Mức sử dụng và giới hạn

Các mô hình này có một số giới hạn mà người dùng nên biết.

Mục đích sử dụng

Các mô hình đa phương thức (có khả năng xử lý hình ảnh, ngôn ngữ và/hoặc âm thanh) có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách các mục đích sử dụng tiềm năng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể mà người tạo mô hình đã cân nhắc trong quá trình huấn luyện mô hình và phát triển.

Tạo và giao tiếp nội dung
- Tạo văn bản: Tạo các định dạng văn bản sáng tạo như thơ, kịch bản, mã nguồn, nội dung tiếp thị và bản nháp email.
- Chatbot và AI đàm thoại: Hỗ trợ các giao diện đàm thoại cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
- Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về ngữ liệu văn bản, bài nghiên cứu hoặc báo cáo.
- Trích xuất dữ liệu hình ảnh: Trích xuất, diễn giải và tóm tắt dữ liệu hình ảnh cho các giao tiếp bằng văn bản.
Nghiên cứu và giáo dục
- Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP) và VLM: Đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật VLM và NLP, phát triển thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
- Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa lỗi ngữ pháp hoặc cung cấp bài tập viết.
- Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá lượng lớn văn bản bằng cách tạo bản tóm tắt hoặc trả lời các câu hỏi về các chủ đề cụ thể.

Giới hạn

Dữ liệu huấn luyện
- Chất lượng và sự đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thiên kiến hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến các giới hạn trong câu trả lời của mô hình.
- Phạm vi của tập dữ liệu huấn luyện xác định các lĩnh vực mà mô hình có thể xử lý hiệu quả.
Ngữ cảnh và độ phức tạp của tác vụ
- Mô hình hoạt động tốt trên các tác vụ có thể được đóng khung bằng các câu lệnh và hướng dẫn rõ ràng. Các tác vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
- Hiệu suất của mô hình có thể bị ảnh hưởng bởi lượng ngữ cảnh được cung cấp (ngữ cảnh càng dài thì kết quả đầu ra thường càng tốt, cho đến một mức nhất định).
Tính mơ hồ và sắc thái của ngôn ngữ
- Ngôn ngữ tự nhiên vốn dĩ phức tạp. Mô hình có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, sự mỉa mai hoặc ngôn ngữ hình tượng.
Độ chính xác về mặt thực tế
- Mô hình tạo ra câu trả lời dựa trên thông tin mà mô hình học được từ các tập dữ liệu huấn luyện, nhưng chúng không phải là cơ sở kiến thức. Mô hình có thể tạo ra các câu lệnh thực tế không chính xác hoặc lỗi thời.
Lý lẽ thông thường
- Mô hình dựa vào các mẫu thống kê trong ngôn ngữ. Mô hình có thể thiếu khả năng áp dụng suy luận thông thường trong một số tình huống.

Các cân nhắc và rủi ro về đạo đức

Trong quá trình tạo mô hình ngôn ngữ hình ảnh mở, chúng tôi đã cân nhắc kỹ lưỡng những điều sau:

Thiên kiến và tính công bằng
- Các mô hình ngôn ngữ hình ảnh (VLM) được huấn luyện trên dữ liệu văn bản và hình ảnh quy mô lớn trong thế giới thực có thể phản ánh các thiên kiến văn hoá xã hội được nhúng trong tài liệu huấn luyện. DiffusionGemma đã trải qua quá trình giám sát kỹ lưỡng, xử lý trước dữ liệu đầu vào và đánh giá sau huấn luyện như được báo cáo trong thẻ này để giúp giảm thiểu rủi ro của các thiên kiến này.
Thông tin sai lệch và sử dụng sai mục đích
- Các mô hình ngôn ngữ hình ảnh (VLM) có thể bị sử dụng sai mục đích để tạo ra văn bản sai lệch, gây hiểu lầm hoặc gây hại.
- Các nguyên tắc được cung cấp để sử dụng mô hình một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
Tính minh bạch và trách nhiệm giải trình
- Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, giới hạn và quy trình đánh giá của mô hình.
- Một mô hình mở được phát triển có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách giúp các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI tiếp cận công nghệ VLM.

Các rủi ro được xác định và biện pháp giảm thiểu:

Tạo nội dung gây hại: Các cơ chế và nguyên tắc về an toàn nội dung là rất cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung thích hợp dựa trên các chính sách sản phẩm cụ thể và trường hợp sử dụng ứng dụng của họ.
Sử dụng sai mục đích cho các mục đích độc hại: Các giới hạn kỹ thuật và việc giáo dục nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ hình ảnh (VLM). Các tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ việc sử dụng sai mục đích được cung cấp.
Vi phạm quyền riêng tư: Các mô hình được huấn luyện trên dữ liệu đã được lọc để loại bỏ một số thông tin cá nhân và dữ liệu nhạy cảm khác. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.
Duy trì thiên kiến: Bạn nên liên tục giám sát (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật giảm thiên kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.

Lợi ích

Tại thời điểm phát hành, đây là một mô hình ngôn ngữ hình ảnh mở có độ trễ thấp, hiệu suất cao, cung cấp một lựa chọn hấp dẫn cho các nhà phát triển và những người quan tâm đến việc nghiên cứu các mô hình ngôn ngữ khuếch tán. Mô hình này được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.