Thẻ mô hình Gemma 3

Trang mô hình: Gemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google DeepMind

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về dữ liệu đầu vào và đầu ra.

Mô tả

Gemma là một nhóm các mô hình mở, hiện đại và gọn nhẹ của Google, được xây dựng từ cùng một nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini. Mô hình Gemma 3 là mô hình đa phương thức, xử lý dữ liệu đầu vào văn bản và hình ảnh, đồng thời tạo đầu ra văn bản, với trọng số mở cho cả biến thể được huấn luyện trước và biến thể được điều chỉnh theo hướng dẫn. Gemma 3 có cửa sổ ngữ cảnh lớn 128K, hỗ trợ đa ngôn ngữ bằng hơn 140 ngôn ngữ và có nhiều kích thước hơn so với các phiên bản trước. Các mô hình Gemma 3 rất phù hợp với nhiều nhiệm vụ tạo văn bản và hiểu hình ảnh, bao gồm cả việc trả lời câu hỏi, tóm tắt và suy luận. Kích thước tương đối nhỏ của các mô hình này cho phép triển khai trong các môi trường có tài nguyên hạn chế như máy tính xách tay, máy tính để bàn hoặc cơ sở hạ tầng đám mây của riêng bạn, giúp mọi người tiếp cận các mô hình AI hiện đại và thúc đẩy sự đổi mới.

Đầu vào và đầu ra

  • Đầu vào:

    • Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt
    • Hình ảnh, được chuẩn hoá thành độ phân giải 896 x 896 và được mã hoá thành 256 mã thông báo mỗi hình ảnh
    • Tổng ngữ cảnh đầu vào là 128K mã thông báo cho kích thước 4B, 12B và 27B, và 32K mã thông báo cho kích thước 1B
  • Kết quả:

    • Văn bản được tạo để phản hồi dữ liệu đầu vào, chẳng hạn như câu trả lời cho một câu hỏi, nội dung phân tích hình ảnh hoặc bản tóm tắt tài liệu
    • Tổng ngữ cảnh đầu ra lên đến 128K mã thông báo cho kích thước 4B, 12B và 27B, và 32K mã thông báo cho kích thước 1B cho mỗi yêu cầu, trừ đi mã thông báo đầu vào yêu cầu

Trích dẫn

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách xử lý dữ liệu.

Tập dữ liệu huấn luyện

Các mô hình này được huấn luyện trên một tập dữ liệu văn bản bao gồm nhiều nguồn. Mô hình 27 tỷ được huấn luyện bằng 14 nghìn tỷ mã thông báo, mô hình 12 tỷ được huấn luyện bằng 12 nghìn tỷ mã thông báo, mô hình 4 tỷ được huấn luyện bằng 4 nghìn tỷ mã thông báo và mô hình 1 tỷ được huấn luyện bằng 2 nghìn tỷ mã thông báo. Ngày cắt bớt kiến thức cho dữ liệu huấn luyện là tháng 8 năm 2024. Sau đây là các thành phần chính:

  • Tài liệu trên web: Bộ sưu tập đa dạng các văn bản trên web đảm bảo mô hình tiếp xúc với nhiều kiểu ngôn ngữ, chủ đề và từ vựng. Tập dữ liệu đào tạo bao gồm nội dung bằng hơn 140 ngôn ngữ.
  • Mã: Việc hiển thị mô hình cho mã giúp mô hình học cú pháp và mẫu của các ngôn ngữ lập trình, nhờ đó cải thiện khả năng tạo mã và hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện trên văn bản toán học giúp mô hình học cách suy luận logic, biểu diễn tượng trưng và giải quyết các truy vấn toán học.
  • Hình ảnh: Một loạt hình ảnh cho phép mô hình thực hiện các nhiệm vụ phân tích hình ảnh và trích xuất dữ liệu hình ảnh.

Việc kết hợp các nguồn dữ liệu đa dạng này là rất quan trọng để huấn luyện một mô hình đa phương thức mạnh mẽ có thể xử lý nhiều loại nhiệm vụ và định dạng dữ liệu.

Xử lý trước dữ liệu

Sau đây là các phương thức lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu đào tạo:

  • Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi đã áp dụng quy trình lọc nghiêm ngặt đối với nội dung xâm hại tình dục trẻ em (CSAM) ở nhiều giai đoạn trong quy trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình được huấn luyện trước của Gemma an toàn và đáng tin cậy, các kỹ thuật tự động đã được dùng để lọc ra một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi tập huấn luyện.
  • Các phương pháp khác: Lọc dựa trên chất lượng và mức độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về nội dung bên trong mô hình.

Phần cứng

Gemma được huấn luyện bằng phần cứng Bộ xử lý tensor (TPU) (TPUv4p, TPUv5p và TPUv5e). Việc huấn luyện mô hình ngôn ngữ thị giác (VLMS) đòi hỏi sức mạnh tính toán đáng kể. TPU, được thiết kế riêng cho các phép toán ma trận phổ biến trong học máy, mang lại một số lợi thế trong lĩnh vực này:

  • Hiệu suất: TPU được thiết kế riêng để xử lý các phép tính lớn liên quan đến việc huấn luyện VLM. Chúng có thể tăng tốc đáng kể quá trình huấn luyện so với CPU.
  • Bộ nhớ: TPU thường đi kèm với một lượng lớn bộ nhớ băng thông cao, cho phép xử lý các mô hình lớn và kích thước lô trong quá trình huấn luyện. Điều này có thể giúp cải thiện chất lượng mô hình.
  • Khả năng mở rộng: Vùng chứa TPU (các cụm TPU lớn) cung cấp một giải pháp có thể mở rộng để xử lý độ phức tạp ngày càng tăng của các mô hình nền tảng lớn. Bạn có thể phân phối quá trình huấn luyện trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
  • Tiết kiệm chi phí: Trong nhiều trường hợp, TPU có thể cung cấp giải pháp tiết kiệm chi phí hơn để huấn luyện các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi xem xét thời gian và tài nguyên tiết kiệm được do quá trình huấn luyện nhanh hơn.
  • Những lợi thế này phù hợp với cam kết của Google về việc hoạt động bền vững.

Phần mềm

Chúng tôi đã đào tạo bằng JAXLộ trình học máy.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh và hiệu quả hơn. Lộ trình học máy là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống trí tuệ nhân tạo có khả năng khái quát hoá trên nhiều tác vụ. Điều này đặc biệt phù hợp với các mô hình cơ sở, bao gồm cả các mô hình ngôn ngữ lớn như những mô hình này.

JAX và ML Pathways được sử dụng cùng nhau như mô tả trong bài viết về gia đình mô hình Gemini; "mô hình lập trình "điều khiển đơn" của Jax và Pathways cho phép một quy trình Python duy nhất điều phối toàn bộ quá trình huấn luyện, đơn giản hoá đáng kể quy trình phát triển".

Đánh giá

Chỉ số và kết quả đánh giá mô hình.

Kết quả đo điểm chuẩn

Các mô hình này được đánh giá dựa trên một tập hợp lớn các tập dữ liệu và chỉ số khác nhau để bao gồm nhiều khía cạnh của việc tạo văn bản. Kết quả đánh giá được đánh dấu bằng IT là dành cho các mô hình được điều chỉnh theo hướng dẫn. Kết quả đánh giá được đánh dấu bằng PT là dành cho các mô hình được huấn luyện trước.

Suy luận và tính xác thực

Benchmark (Điểm chuẩn) n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA Kim cương 0-shot 19,2 30,8 40,9 42,4
SimpleQA 0-shot 2.2 4 6,3 10
Tìm hiểu về FACTS - 36,4 70,1 75,8 74,9
BIG-Bench Hard 0-shot 39.1 72,2 85,7 87,6
BIG-Bench Extra Hard 0-shot 7.2 11.0 16.3 19,3
IFEval 0-shot 80,2 90,2 88,9 90,4
Benchmark (Điểm chuẩn) n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10 cảnh 62,3 77,2 84,2 85,6
BoolQ 0-shot 63.2 72,3 78,8 82,4
PIQA 0-shot 73,8 79,6 81,8 83,3
SocialIQA 0-shot 48,9 51,9 53,4 54,9
TriviaQA 5 lần chụp 39,8 65,8 78,2 85,5
Câu hỏi tự nhiên 5 lần chụp 9,48 20 31,4 36,1
ARC-c 25 ảnh 38,4 56,2 68,9 70,6
ARC-e 0-shot 73 82,4 88,3 89
WinoGrande 5 lần chụp 58.2 64,7 74,3 78,8
BIG-Bench Hard học từ một vài dữ liệu 28,4 50,9 72,6 77,7
THẢ 1 lần 42,4 60,1 72,2 77,2

STEM và lập trình

Benchmark (Điểm chuẩn) n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0-shot 14,7 43,6 60,6 67,5
LiveCodeBench 0-shot 1.9 12.6 24,6 29,7
Bird-SQL (phát triển) - 6.4 36,3 47,9 54,4
Toán học 0-shot 48 75,6 83,8 89
HiddenMath 0-shot 15,8 43.0 54,5 60,3
MBPP 3 lần chụp 35.2 63.2 73 74,4
HumanEval 0-shot 41,5 71,3 85,4 87,8
Natural2Code 0-shot 56 70,3 80,7 84,5
GSM8K 0-shot 62,8 89,2 94,4 95,9
Benchmark (Điểm chuẩn) n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5 lần chụp 59,6 74,5 78,6
MMLU (Pro COT) 5 lần chụp 29,2 45,3 52,2
AGIEval 3-5-shot 42.1 57,4 66,2
MATH 4 cảnh quay 24,2 43,3 50
GSM8K 8 ảnh 38,4 71 82,6
GPQA 5 lần chụp 15 25,4 24,3
MBPP 3 lần chụp 46,0 60,4 65,6
HumanEval 0-shot 36 45,7 48,8

Đa ngôn ngữ

Benchmark (Điểm chuẩn) n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0-shot 34,2 54,5 69,5 75,1
ECLeKTic 0-shot 1.4 4,6 10.3 16,7
WMT24++ 0-shot 35,9 46,8 51,6 53,4
Benchmark (Điểm chuẩn) Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2.04 34,7 64,3 74,3
Global-MMLU-Lite 24,9 57.0 69,4 75,7
WMT24++ (ChrF) 36,7 48,4 53,9 55,7
FloRes 29,5 39,2 46,0 48,8
XQuAD (tất cả) 43,9 68 74,5 76,8
ECLeKTic 4,69 11.0 17.2 24,4
IndicGenBench 41,4 57,2 61,7 63,4

Đa phương thức

Benchmark (Điểm chuẩn) Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48,8 59,6 64,9
DocVQA 75,8 87,1 86,6
InfoVQA 50 64,9 70,6
TextVQA 57,8 67,7 65,1
AI2D 74,8 84,2 84,5
ChartQA 68,8 75,7 78
VQAv2 (val) 62,4 71,6 71
MathVista (testmini) 50 62,9 67,6
Benchmark (Điểm chuẩn) Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72,8 82,3 85,6
InfoVQA (val) 44,1 54,8 59,4
MMMU (pt) 39,2 50,3 56,1
TextVQA (val) 58,9 66,5 68,6
RealWorldQA 45,5 52,2 53,9
ReMI 27.3 38,5 44,8
AI2D 63.2 75,2 79
ChartQA 63,6 74,7 76,3
VQAv2 63,9 71,2 72,9
BLINK 38 35,9 39,6
OKVQA 51 58,7 60.2
TallyQA 42,5 51,8 54,3
SpatialSense VQA 50,9 60 59,4
CountBenchQA 26.1 17,8 68

Đạo đức và an toàn

Phương pháp và kết quả đánh giá về đạo đức và sự an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nội bộ theo nhóm đối thủ về các chính sách nội dung có liên quan. Một số nhóm đã tiến hành hoạt động tạo nhóm đỏ, mỗi nhóm có các mục tiêu và chỉ số đánh giá con người khác nhau. Các mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • An toàn cho trẻ em: Đánh giá các câu lệnh từ văn bản sang văn bản và từ hình ảnh sang văn bản liên quan đến chính sách an toàn cho trẻ em, bao gồm cả hành vi xâm hại và bóc lột trẻ em.
  • An toàn nội dung: Đánh giá các câu lệnh văn bản sang văn bản và hình ảnh sang văn bản liên quan đến các chính sách về an toàn, bao gồm cả nội dung quấy rối, bạo lực và phản cảm, cũng như lời nói hận thù.
  • Tác hại do nội dung gây ra: Đánh giá các câu lệnh văn bản sang văn bản và hình ảnh sang văn bản liên quan đến các chính sách về an toàn, bao gồm cả sự thiên vị, định kiến và các mối liên kết gây hại hoặc không chính xác.

Ngoài các hoạt động đánh giá cấp độ phát triển, chúng tôi còn tiến hành "đánh giá đảm bảo". Đây là các hoạt động đánh giá nội bộ "độc lập" để đưa ra quyết định quản lý trách nhiệm. Các thử nghiệm này được tiến hành riêng với nhóm phát triển mô hình để đưa ra quyết định về việc phát hành. Các phát hiện cấp cao được đưa trở lại nhóm mô hình, nhưng các bộ câu lệnh được giữ lại để ngăn chặn việc điều chỉnh quá mức và duy trì khả năng của kết quả trong việc đưa ra quyết định. Kết quả đánh giá về tính đảm bảo sẽ được báo cáo cho Hội đồng về trách nhiệm và an toàn trong quá trình xem xét bản phát hành.

Kết quả đánh giá

Đối với tất cả các khía cạnh kiểm thử an toàn, chúng tôi nhận thấy có sự cải thiện đáng kể trong các danh mục về sự an toàn cho trẻ em, sự an toàn của nội dung và nội dung gây hại so với các mô hình Gemma trước đây. Tất cả các thử nghiệm đều được tiến hành mà không có bộ lọc an toàn để đánh giá các tính năng và hành vi của mô hình. Đối với cả mô hình văn bản sang văn bản và hình ảnh sang văn bản, cũng như trên tất cả các kích thước mô hình, mô hình này đã tạo ra ít lỗi vi phạm chính sách và cho thấy sự cải thiện đáng kể so với hiệu suất của các mô hình Gemma trước đó liên quan đến các suy luận không có cơ sở. Một hạn chế của các bài đánh giá của chúng tôi là chỉ bao gồm các câu lệnh bằng tiếng Anh.

Cách sử dụng và giới hạn

Người dùng cần lưu ý một số hạn chế nhất định của các mô hình này.

Mục đích sử dụng

Mô hình ngôn ngữ thị giác mở (VLM) có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách sau đây về các cách sử dụng tiềm năng chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể xảy ra mà nhà tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình.

  • Tạo nội dung và giao tiếp
    • Tạo văn bản: Bạn có thể dùng các mô hình này để tạo các định dạng văn bản quảng cáo như bài thơ, tập lệnh, mã, nội dung tiếp thị và email nháp.
    • Chatbot và AI đàm thoại: Cung cấp giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về một tập hợp văn bản, bài nghiên cứu hoặc báo cáo.
    • Trích xuất dữ liệu hình ảnh: Bạn có thể dùng các mô hình này để trích xuất, diễn giải và tóm tắt dữ liệu hình ảnh cho các thông tin liên lạc bằng văn bản.
  • Nghiên cứu và giáo dục
    • Nghiên cứu Xử lý ngôn ngữ tự nhiên (NLP) và VLM: Các mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật VLM và NLP, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa ngữ pháp hoặc cung cấp bài tập viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá các văn bản lớn bằng cách tạo bản tóm tắt hoặc trả lời các câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

  • Dữ liệu huấn luyện
    • Chất lượng và sự đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thành kiến hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong câu trả lời của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các chủ đề mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và độ phức tạp của tác vụ
    • Mô hình hoạt động hiệu quả hơn với những nhiệm vụ có thể được định hình bằng các câu lệnh và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, lên đến một điểm nhất định).
  • Tính mơ hồ và sắc thái của ngôn ngữ
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. Các mô hình có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời châm biếm hoặc ngôn từ hình tượng.
  • Nội dung xác thực
    • Các mô hình tạo ra phản hồi dựa trên thông tin mà chúng đã học được từ tập dữ liệu huấn luyện, nhưng chúng không phải là cơ sở tri thức. Các nguồn này có thể tạo ra các câu nhận định không chính xác hoặc đã lỗi thời về thực tế.
  • Common Sense
    • Các mô hình dựa vào các mẫu thống kê trong ngôn ngữ. Chúng có thể không có khả năng áp dụng lý luận theo lẽ thường trong một số trường hợp nhất định.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển mô hình ngôn ngữ thị giác (VLM) làm nảy sinh một số vấn đề về đạo đức. Khi tạo mô hình mở, chúng tôi đã cân nhắc kỹ những điều sau:

  • Sự thiên vị và tính công bằng
    • VLM được huấn luyện dựa trên dữ liệu hình ảnh và văn bản thực tế, quy mô lớn có thể phản ánh các thành kiến xã hội và văn hoá được nhúng trong tài liệu huấn luyện. Các mô hình này đã trải qua quá trình kiểm tra kỹ lưỡng, xử lý trước dữ liệu đầu vào được mô tả và các đánh giá sau được báo cáo trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • VLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình:
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, giới hạn và quy trình đánh giá của các mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách giúp các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI tiếp cận công nghệ VLM.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Tiếp tục duy trì thiên kiến: Bạn nên liên tục giám sát (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ thiên kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Bạn cần có các cơ chế và nguyên tắc về an toàn nội dung. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên các chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Sử dụng sai mục đích cho mục đích độc hại: Các giới hạn về kỹ thuật và việc đào tạo nhà phát triển cũng như người dùng cuối có thể giúp giảm thiểu việc các ứng dụng độc hại sử dụng VLM. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ trường hợp sử dụng sai mục đích. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm đối với Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để xoá một số thông tin cá nhân và dữ liệu nhạy cảm khác. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, gia đình mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ thị giác mở có hiệu suất cao, được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã cho thấy hiệu suất vượt trội so với các mô hình mở thay thế có kích thước tương đương khác.