Thẻ mô hình Gemma 4

Biểu ngữ Gemma 4

Hugging Face | GitHub | Launch Blog | Tài liệu
Giấy phép: Apache 2.0 | Tác giả: Google DeepMind

Gemma là một nhóm các mô hình nguồn mở do Google DeepMind xây dựng. Các mô hình Gemma 4 là mô hình đa phương thức, xử lý văn bản và hình ảnh đầu vào (có hỗ trợ âm thanh trên các mô hình nhỏ) và tạo văn bản đầu ra. Bản phát hành này bao gồm các mô hình trọng số mở ở cả biến thể được huấn luyện trước và được điều chỉnh theo hướng dẫn. Gemma 4 có cửa sổ ngữ cảnh lên đến 256 nghìn mã thông báo và duy trì khả năng hỗ trợ đa ngôn ngữ cho hơn 140 ngôn ngữ.

Sở hữu cả kiến trúc Mật độ và Kiến trúc kết hợp các chuyên gia (MoE), Gemma 4 phù hợp với các nhiệm vụ như tạo văn bản, lập trình và suy luận. Các mô hình này có 4 kích thước riêng biệt: E2B, E4B, 26B A4B31B. Kích thước đa dạng giúp các mô hình này có thể triển khai trong nhiều môi trường, từ điện thoại cao cấp đến máy tính xách tay và máy chủ, giúp mọi người có thể tiếp cận AI tiên tiến.

Gemma 4 giới thiệu những tiến bộ quan trọng về khả năng và cấu trúc:

  • Suy luận – Tất cả các mô hình trong họ đều được thiết kế để có khả năng suy luận cao, với các chế độ tư duy có thể định cấu hình.

  • Đa phương thức mở rộng – Xử lý văn bản, hình ảnh với tỷ lệ khung hình và độ phân giải thay đổi (tất cả các mô hình), video và âm thanh (được tích hợp sẵn trên các mô hình E2B và E4B).

  • Kiến trúc đa dạng và hiệu quả – Cung cấp các biến thể Dense và Mixture-of-Experts (MoE) với nhiều kích thước để triển khai có thể mở rộng.

  • Tối ưu hoá cho thiết bị – Các mô hình nhỏ hơn được thiết kế đặc biệt để thực thi hiệu quả trên máy tính xách tay và thiết bị di động.

  • Cửa sổ ngữ cảnh lớn hơn – Các mô hình nhỏ có cửa sổ ngữ cảnh 128K, trong khi các mô hình trung bình hỗ trợ 256K.

  • Khả năng lập trình và tác nhân nâng cao – Đạt được những cải tiến đáng kể trong các điểm chuẩn về lập trình cùng với khả năng hỗ trợ gọi hàm gốc, cung cấp sức mạnh cho các tác nhân tự trị có năng lực cao.

  • Hỗ trợ lời nhắc hệ thống gốc – Gemma 4 giới thiệu tính năng hỗ trợ gốc cho vai trò system, cho phép các cuộc trò chuyện có cấu trúc và dễ kiểm soát hơn.

Tổng quan về các mô hình

Các mô hình Gemma 4 được thiết kế để mang lại hiệu suất ở cấp độ tiên tiến cho từng kích thước, nhắm đến các trường hợp triển khai từ thiết bị di động và thiết bị biên (E2B, E4B) đến GPU và máy trạm tiêu dùng (26B A4B, 31B). Các mô hình này rất phù hợp với hoạt động suy luận, quy trình làm việc dựa trên tác nhân, lập trình và hiểu biết đa phương thức.

Các mô hình này sử dụng cơ chế chú ý kết hợp, xen kẽ sự chú ý của cửa sổ trượt cục bộ với sự chú ý toàn cầu đầy đủ, đảm bảo lớp cuối cùng luôn là lớp toàn cầu. Thiết kế kết hợp này mang lại tốc độ xử lý và mức sử dụng bộ nhớ thấp của một mô hình gọn nhẹ mà không làm giảm khả năng nhận biết sâu sắc cần thiết cho các tác vụ phức tạp, có bối cảnh dài. Để tối ưu hoá bộ nhớ cho các ngữ cảnh dài, tính năng các lớp chung hợp nhất Khoá và Giá trị, đồng thời áp dụng RoPE tỷ lệ (p-RoPE).

Mô hình dày đặc

Thuộc tính E2B E4B 31B Dense
Tổng số tham số 2,3 tỷ tham số hiệu quả (5,1 tỷ tham số với các thành phần nhúng) 4,5 tỷ tham số hiệu quả (8 tỷ tham số có các thành phần nhúng) 30,7 tỷ
Lớp 35 42 60
Cửa sổ trượt 512 mã thông báo 512 mã thông báo 1024 mã thông báo
Độ dài ngữ cảnh 128.000 mã thông báo 128.000 mã thông báo 256.000 mã thông báo
Quy mô từ vựng 262.000 262.000 262.000
Các phương thức được hỗ trợ Văn bản, Hình ảnh, Âm thanh Văn bản, Hình ảnh, Âm thanh Văn bản, hình ảnh
Thông số bộ mã hoá hình ảnh Khoảng 150 triệu Khoảng 150 triệu Khoảng 550 triệu
Thông số bộ mã hoá âm thanh Khoảng 300 triệu Khoảng 300 triệu Không có âm thanh

"E" trong E2B và E4B là viết tắt của các thông số "hiệu quả". Các mô hình nhỏ hơn kết hợp tính năng Nhúng theo lớp (PLE) để tối đa hoá hiệu quả của tham số trong các hoạt động triển khai trên thiết bị. Thay vì thêm nhiều lớp hoặc tham số vào mô hình, PLE cung cấp cho mỗi lớp giải mã một mục nhúng nhỏ riêng cho mọi mã thông báo. Các bảng nhúng này có kích thước lớn nhưng chỉ được dùng để tra cứu nhanh. Đó là lý do tại sao số lượng tham số hiệu quả nhỏ hơn nhiều so với tổng số.

Mô hình Kết hợp các chuyên gia (MoE)

Thuộc tính 26B A4B MoE
Tổng số tham số 25,2 tỷ
Thông số đang hoạt động 3,8 tỷ
Lớp 30
Cửa sổ trượt 1024 mã thông báo
Độ dài ngữ cảnh 256.000 mã thông báo
Quy mô từ vựng 262.000
Số lượng chuyên gia 8 đang hoạt động / 128 tổng số và 1 được chia sẻ
Các phương thức được hỗ trợ Văn bản, hình ảnh
Thông số bộ mã hoá hình ảnh Khoảng 550 triệu

"A" trong 26B A4B là viết tắt của "số thông số đang hoạt động" so với tổng số thông số mà mô hình chứa. Bằng cách chỉ kích hoạt một tập hợp con 4B gồm các tham số trong quá trình suy luận, mô hình Mixture-of-Experts chạy nhanh hơn nhiều so với tổng số 26B mà mô hình này có thể đề xuất. Điều này khiến Llama 2 13B trở thành lựa chọn tuyệt vời để suy luận nhanh so với mô hình 31B dày đặc vì mô hình này chạy nhanh gần bằng mô hình có 4 tỷ tham số.

Kết quả đo điểm chuẩn

Những mô hình này được đánh giá dựa trên một bộ sưu tập lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của hoạt động tạo văn bản. Kết quả đánh giá được đánh dấu trong bảng là dành cho các mô hình được điều chỉnh theo hướng dẫn.

Gemma 4 31B Gemma 4 26B A4B Gemma 4 E4B Gemma 4 E2B Gemma 3 27B (không suy nghĩ)
MMLU Pro 85,2% 82,6% 69,4% 60,0% 67,6%
AIME 2026 không có công cụ 89,2% 88,3% 42,5% 37,5% 20,8%
LiveCodeBench phiên bản 6 80% 77,1% 52% 44% 29,1%
ELO của Codeforces 2150 1718 940 633 110
GPQA Diamond 84,3% 82,3% 58,6% 43,4% 42,4%
Tau2 (trung bình trên 3) 76,9% 68,2% 42,2% 24,5% 16,2%
HLE no tools 19,5% 8,7% - - -
HLE có tính năng tìm kiếm 26,5% 17,2% - - -
BigBench Extra Hard 74,4% 64,8% 33,1% 21,9% 19,3%
MMMLU 88,4% 86,3% 76,6% 67,4% 70,7%
Thị lực
MMMU Pro 76,9% 73,8% 52,6% 44,2% 49,7%
OmniDocBench 1.5 (khoảng cách chỉnh sửa trung bình, càng thấp càng tốt) 0,131 0,149 0,181 0,290 0,365
MATH-Vision 85,6% 82,4% 59,5% 52,4% 46%
MedXPertQA MM 61,3% 58,1% 28,7% 23,5% -
Âm thanh
CoVoST - - 35,54 33,47 -
FLEURS (càng thấp càng tốt) - - 0,08 0,09 -
Ngữ cảnh dài
MRCR phiên bản 2, 8 kim, 128k (trung bình) 66,4% 44,1% 25,4% 19,1% 13,5%

Các chức năng cốt lõi

Các mô hình Gemma 4 xử lý nhiều loại tác vụ liên quan đến văn bản, thị giác và âm thanh. Các chức năng chính bao gồm:

  • Tư duy – Chế độ suy luận tích hợp cho phép mô hình suy nghĩ từng bước trước khi trả lời.
  • Ngữ cảnh dài – Cửa sổ ngữ cảnh có tối đa 128.000 token (E2B/E4B) và 256.000 token (26B A4B/31B).
  • Phân tích hình ảnh – Phát hiện đối tượng, phân tích cú pháp tài liệu/PDF, phân tích màn hình và giao diện người dùng, hiểu biểu đồ, nhận dạng ký tự quang học (OCR) (bao gồm cả nhiều ngôn ngữ), nhận dạng chữ viết tay và chỉ tay. Hình ảnh có thể được xử lý ở nhiều tỷ lệ khung hình và độ phân giải.
  • Video Understanding (Hiểu video) – Phân tích video bằng cách xử lý các chuỗi khung hình.
  • Đầu vào đa phương thức xen kẽ – Thoải mái kết hợp văn bản và hình ảnh theo bất kỳ thứ tự nào trong một câu lệnh duy nhất.
  • Gọi hàm – Hỗ trợ gốc cho việc sử dụng công cụ có cấu trúc, cho phép quy trình làm việc dựa trên tác nhân.
  • Viết mã – Tạo, hoàn tất và sửa mã.
  • Đa ngôn ngữ – Hỗ trợ sẵn hơn 35 ngôn ngữ, được huấn luyện trước trên hơn 140 ngôn ngữ.
  • Âm thanh (chỉ E2B và E4B) – Nhận dạng lời nói tự động (ASR) và dịch lời nói sang văn bản đã dịch bằng nhiều ngôn ngữ.

Bắt đầu

Bạn có thể sử dụng tất cả các mô hình Gemma 4 với phiên bản mới nhất của Transformers. Để bắt đầu, hãy cài đặt các phần phụ thuộc cần thiết trong môi trường của bạn:

pip install -U transformers torch accelerate

Sau khi cài đặt mọi thứ, bạn có thể tiến hành tải mô hình bằng mã bên dưới:

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

MODEL_ID = "google/gemma-4-E2B-it"

# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

Sau khi tải mô hình, bạn có thể bắt đầu tạo đầu ra:

# Prompt
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

# Process input
text = processor.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]

# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# Parse thinking
processor.parse_response(response)

Để bật tính năng suy luận, hãy đặt enable_thinking=True và hàm parse_response sẽ xử lý việc phân tích cú pháp đầu ra suy luận.

Các phương pháp hay nhất

Để có hiệu suất tốt nhất, hãy sử dụng các cấu hình và phương pháp hay nhất sau đây:

1. Thông số lấy mẫu

Sử dụng cấu hình lấy mẫu chuẩn hoá sau đây cho tất cả các trường hợp sử dụng:

  • temperature=1.0
  • top_p=0.95
  • top_k=64

2. Cấu hình Chế độ suy nghĩ

So với Gemma 3, các mô hình này sử dụng các vai trò system, assistantuser tiêu chuẩn. Để quản lý đúng quy trình suy nghĩ, hãy sử dụng các mã kiểm soát sau:

  • Kích hoạt tính năng Tư duy: Tính năng Tư duy được bật bằng cách thêm token <|think|> vào đầu câu lệnh hệ thống. Để tắt tính năng suy nghĩ, hãy xoá mã thông báo.
  • Tạo nội dung theo cách tiêu chuẩn: Khi tính năng suy luận được bật, mô hình sẽ đưa ra suy luận nội bộ, sau đó là câu trả lời cuối cùng theo cấu trúc sau:<|channel>thought\n[Suy luận nội bộ]<channel|>
  • Hành vi suy nghĩ bị vô hiệu hoá: Đối với tất cả các mô hình, ngoại trừ các biến thể E2B và E4B, nếu tính năng suy nghĩ bị vô hiệu hoá, mô hình vẫn sẽ tạo thẻ nhưng có một khối suy nghĩ trống: <|channel>thought\n<channel|>[Câu trả lời cuối cùng]

Xin lưu ý rằng nhiều thư viện như Transformers và llama.cpp sẽ xử lý sự phức tạp của mẫu trò chuyện cho bạn.

3. Cuộc trò chuyện nhiều lượt

  • Không có nội dung suy nghĩ trong nhật ký: Trong các cuộc trò chuyện nhiều lượt, đầu ra của mô hình trước đó chỉ nên bao gồm câu trả lời cuối cùng. Bạn không được thêm suy nghĩ từ các lượt của mô hình trước khi lượt tiếp theo của người dùng bắt đầu.

4. Thứ tự phương thức

  • Để đạt được hiệu suất tối ưu với dữ liệu đầu vào đa phương thức, hãy đặt nội dung hình ảnh và/hoặc âm thanh trước văn bản trong câu lệnh của bạn.

5. Độ phân giải hình ảnh có thể thay đổi

Ngoài tỷ lệ khung hình thay đổi, Gemma 4 còn hỗ trợ độ phân giải hình ảnh thay đổi thông qua ngân sách mã thông báo trực quan có thể định cấu hình. Ngân sách này kiểm soát số lượng mã thông báo được dùng để biểu thị một hình ảnh. Ngân sách mã thông báo cao hơn sẽ giữ được nhiều chi tiết trực quan hơn với chi phí tính toán bổ sung, trong khi ngân sách thấp hơn cho phép suy luận nhanh hơn cho những tác vụ không yêu cầu mức độ hiểu biết chi tiết.

  • Ngân sách mã thông báo được hỗ trợ là: 70, 140, 280, 5601120.
    • Sử dụng ngân sách thấp hơn cho việc phân loại, chú thích hoặc hiểu video, trong đó suy luận nhanh hơn và xử lý nhiều khung hình quan trọng hơn chi tiết chính xác.
    • Sử dụng ngân sách cao hơn cho các tác vụ như nhận dạng ký tự quang học, phân tích cú pháp tài liệu hoặc đọc văn bản nhỏ.

6. Âm thanh

Sử dụng cấu trúc câu lệnh sau để xử lý âm thanh:

  • Nhận dạng lời nói trong âm thanh (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
  • Dịch lời nói tự động (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Thời lượng âm thanh và video

Tất cả các mô hình đều hỗ trợ dữ liệu đầu vào là hình ảnh và có thể xử lý video dưới dạng khung hình, trong khi các mô hình E2B và E4B cũng hỗ trợ dữ liệu đầu vào là âm thanh. Âm thanh có thời lượng tối đa là 30 giây. Video hỗ trợ tối đa 60 giây, giả sử hình ảnh được xử lý ở tốc độ một khung hình/giây.

Dữ liệu mô hình

Dữ liệu được dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Tập dữ liệu huấn luyện trước của chúng tôi là một tập hợp dữ liệu đa dạng trên quy mô lớn, bao gồm nhiều miền và phương thức, trong đó có các tài liệu trên web, mã, hình ảnh, âm thanh, với ngày cắt là tháng 1 năm 2025. Sau đây là các thành phần chính:

  • Tài liệu trên web: Một bộ sưu tập đa dạng gồm văn bản trên web giúp đảm bảo mô hình được tiếp xúc với nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Tập dữ liệu huấn luyện bao gồm nội dung bằng hơn 140 ngôn ngữ.
  • : Việc tiếp xúc với mã giúp mô hình học được cú pháp và các mẫu của ngôn ngữ lập trình, từ đó cải thiện khả năng tạo mã và hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện trên văn bản toán học giúp mô hình học được khả năng suy luận logic, biểu diễn bằng ký hiệu và giải quyết các câu hỏi toán học.
  • Hình ảnh: Nhiều hình ảnh cho phép mô hình thực hiện các tác vụ phân tích hình ảnh và trích xuất dữ liệu trực quan.

Việc kết hợp các nguồn dữ liệu đa dạng này là yếu tố then chốt để huấn luyện một mô hình đa phương thức mạnh mẽ có thể xử lý nhiều loại nhiệm vụ và định dạng dữ liệu.

Xử lý dữ liệu trước

Sau đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu huấn luyện:

  • Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi áp dụng quy trình lọc nội dung xâm hại tình dục trẻ em (CSAM) nghiêm ngặt ở nhiều giai đoạn trong quá trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình được huấn luyện trước Gemma an toàn và đáng tin cậy, chúng tôi đã sử dụng các kỹ thuật tự động để lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
  • Các phương pháp khác: Lọc dựa trên chất lượng và độ an toàn của nội dung theo chính sách của chúng tôi.

Đạo đức và an toàn

Khi các mô hình mở trở thành trọng tâm của cơ sở hạ tầng doanh nghiệp, nguồn gốc và tính bảo mật là tối quan trọng. Do Google DeepMind phát triển, Gemma 4 trải qua quy trình đánh giá an toàn nghiêm ngặt tương tự như các mô hình Gemini độc quyền của chúng tôi.

Phương pháp đánh giá

Các mô hình Gemma 4 được phát triển dưới sự hợp tác của các nhóm nội bộ về AI an toàn và có trách nhiệm. Chúng tôi đã tiến hành nhiều quy trình đánh giá tự động cũng như thủ công để giúp cải thiện độ an toàn của mô hình. Những đánh giá này tuân theo Nguyên tắc về trí tuệ nhân tạo của Google, cũng như các chính sách an toàn nhằm ngăn chặn các mô hình AI tạo sinh của chúng tôi tạo ra nội dung gây hại, bao gồm:

  • Nội dung liên quan đến nội dung xâm hại tình dục trẻ em và hành vi bóc lột trẻ em
  • Nội dung nguy hiểm (ví dụ: cổ xuý hành vi tự tử hoặc hướng dẫn các hoạt động có thể gây hại ngoài đời thực)
  • Nội dung khiêu dâm
  • Lời nói hận thù (ví dụ: hạ thấp nhân phẩm của thành viên thuộc nhóm được bảo vệ)
  • Hành vi quấy rối (ví dụ: khuyến khích bạo lực đối với người khác)

Kết quả đánh giá

Đối với tất cả các khía cạnh của kiểm thử an toàn, chúng tôi nhận thấy những điểm cải tiến đáng kể ở mọi danh mục về mức độ an toàn của nội dung so với các mô hình Gemma trước đây. Nhìn chung, các mô hình Gemma 4 vượt trội hơn đáng kể so với các mô hình Gemma 3 và 3n trong việc cải thiện độ an toàn, đồng thời vẫn giữ số lượng câu trả lời từ chối không chính đáng ở mức thấp. Tất cả các hoạt động kiểm thử đều được tiến hành mà không có bộ lọc an toàn để đánh giá các khả năng và hành vi của mô hình. Đối với cả mô hình chuyển văn bản thành văn bản và mô hình chuyển hình ảnh thành văn bản, cũng như trên tất cả các kích thước mô hình, mô hình này tạo ra rất ít trường hợp vi phạm chính sách và cho thấy những cải tiến đáng kể so với hiệu suất của các mô hình Gemma trước đây.

Mức sử dụng và giới hạn

Những mô hình này có một số hạn chế mà người dùng cần biết.

Mục đích sử dụng

Các mô hình đa phương thức (có khả năng xử lý hình ảnh, ngôn ngữ và/hoặc âm thanh) có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách sau đây về các trường hợp sử dụng tiềm năng chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về những trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

  • Sáng tạo nội dung và giao tiếp
    • Tạo văn bản: Bạn có thể dùng những mô hình này để tạo các định dạng văn bản sáng tạo như thơ, kịch bản, mã, nội dung tiếp thị và bản nháp email.
    • Chatbot và AI đàm thoại: Hỗ trợ các giao diện đàm thoại cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về một ngữ liệu văn bản, bài nghiên cứu hoặc báo cáo.
    • Trích xuất dữ liệu hình ảnh: Bạn có thể dùng các mô hình này để trích xuất, diễn giải và tóm tắt dữ liệu trực quan cho nội dung giao tiếp bằng văn bản.
    • Xử lý và tương tác bằng âm thanh: Các mô hình nhỏ hơn (E2B và E4B) có thể phân tích và diễn giải dữ liệu âm thanh đầu vào, cho phép tương tác và chép lời bằng giọng nói.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP) và VLM: Các mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật VLM và NLP, phát triển các thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa lỗi ngữ pháp hoặc cung cấp bài tập viết.
      • Khám phá kiến thức: Hỗ trợ nhà nghiên cứu khám phá các khối văn bản lớn bằng cách tạo bản tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Giới hạn

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thiên kiến hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong câu trả lời của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện sẽ xác định các lĩnh vực mà mô hình có thể xử lý một cách hiệu quả.
  • Bối cảnh và độ phức tạp của tác vụ
    • Các mô hình hoạt động hiệu quả trong những nhiệm vụ có thể được xây dựng bằng các câu lệnh và hướng dẫn rõ ràng. Những việc cần làm gợi mở hoặc có độ phức tạp cao có thể sẽ khó khăn.
    • Hiệu suất của mô hình có thể bị ảnh hưởng bởi lượng ngữ cảnh được cung cấp (ngữ cảnh càng dài thì thường cho ra kết quả càng tốt, cho đến một mức nhất định).
  • Sự mơ hồ và sắc thái của ngôn ngữ
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. Các mô hình có thể gặp khó khăn trong việc nắm bắt những sắc thái tinh tế, sự mỉa mai hoặc ngôn ngữ hình tượng.
  • Độ chính xác về thông tin
    • Các mô hình tạo câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện, nhưng chúng không phải là cơ sở kiến thức. Các mô hình này có thể đưa ra những tuyên bố thực tế không chính xác hoặc lỗi thời.
  • Common Sense
    • Các mô hình dựa vào các mẫu thống kê trong ngôn ngữ. Chúng có thể không có khả năng áp dụng lý lẽ thông thường trong một số tình huống nhất định.

Những điểm cần cân nhắc về đạo đức và rủi ro

Việc phát triển các mô hình thị giác-ngôn ngữ (VLM) làm nảy sinh một số lo ngại về đạo đức. Khi tạo một mô hình mở, chúng tôi đã cân nhắc kỹ lưỡng những điều sau:

  • Thiên vị và công bằng
    • Các mô hình ngôn ngữ thị giác được huấn luyện trên dữ liệu văn bản và hình ảnh thực tế ở quy mô lớn có thể phản ánh những thiên kiến về văn hoá xã hội được nhúng trong tài liệu huấn luyện. Các mô hình Gemma 4 đã trải qua quá trình giám sát cẩn thận, xử lý trước dữ liệu đầu vào và đánh giá sau huấn luyện như được báo cáo trong thẻ này để giúp giảm thiểu nguy cơ xảy ra những thiên kiến này.
  • Thông tin sai lệch và hành vi sai trái
    • Các VLM có thể bị sử dụng sai mục đích để tạo ra văn bản sai lệch, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, hạn chế và quy trình đánh giá của các mô hình.
    • Một mô hình mở được phát triển có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách cung cấp công nghệ VLM cho các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Tạo nội dung gây hại: Cơ chế và nguyên tắc về an toàn nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung thích hợp dựa trên chính sách sản phẩm cụ thể và các trường hợp sử dụng ứng dụng của họ.
  • Sử dụng sai mục đích cho mục đích xấu: Các giới hạn về kỹ thuật cũng như thông tin giáo dục dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng VLM độc hại. Chúng tôi cung cấp các tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để loại bỏ một số thông tin cá nhân và dữ liệu nhạy cảm khác. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.
  • Duy trì sự thiên vị: Bạn nên thực hiện quy trình giám sát liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá các kỹ thuật giảm thiên vị trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ thị giác mở hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.