Thẻ mô hình Gemma 2

Trang mô hình: Gemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về dữ liệu đầu vào và đầu ra.

Nội dung mô tả

Gemma là một dòng mô hình mở, gọn nhẹ và tiên tiến của Google, được xây dựng dựa trên chính nghiên cứu và công nghệ dùng để tạo các mô hình Gemini. Đó là các mô hình ngôn ngữ lớn chuyển văn bản thành văn bản, chỉ có bộ giải mã, có sẵn bằng tiếng Anh, với trọng số mở cho cả biến thể được huấn luyện trước và biến thể được điều chỉnh theo hướng dẫn. Mô hình Gemma phù hợp với nhiều tác vụ tạo văn bản, bao gồm trả lời câu hỏi, tóm tắt và lập luận. Quy mô tương đối nhỏ của chúng giúp chúng tôi có thể triển khai chúng trong những môi trường có tài nguyên hạn chế như máy tính xách tay, máy tính hoặc cơ sở hạ tầng đám mây của riêng bạn, giúp mọi người tiếp cận được các mô hình AI hiện đại và giúp thúc đẩy quá trình đổi mới cho mọi người.

Đầu vào và đầu ra

  • Đầu vào: Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt.
  • Đầu ra: Văn bản tiếng Anh được tạo để phản hồi nội dung đầu vào, chẳng hạn như câu trả lời cho một câu hỏi hoặc bản tóm tắt tài liệu.

Trích dẫn

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Những mô hình này được huấn luyện dựa trên một tập dữ liệu văn bản gồm nhiều nguồn. Mô hình 27B được huấn luyện bằng 13 nghìn tỷ mã thông báo, còn mô hình 9B được huấn luyện bằng 8 nghìn tỷ mã thông báo. Dưới đây là các thành phần chính:

  • Tài liệu web: Một bộ sưu tập văn bản trên web đa dạng đảm bảo mô hình tiếp cận nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Chủ yếu là nội dung bằng tiếng Anh.
  • Mã: Việc hiển thị mô hình cho mã giúp mô hình học cú pháp và mẫu của ngôn ngữ lập trình, giúp cải thiện khả năng tạo mã hoặc hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện văn bản toán học giúp mô hình học cách suy luận logic, cách biểu diễn bằng ký hiệu và giải quyết các truy vấn toán học.

Sự kết hợp của các nguồn dữ liệu đa dạng này đóng vai trò quan trọng trong việc huấn luyện một mô hình ngôn ngữ mạnh mẽ có thể xử lý nhiều tác vụ và định dạng văn bản.

Xử lý trước dữ liệu

Dưới đây là các phương thức làm sạch và lọc dữ liệu chính được áp dụng cho dữ liệu huấn luyện:

  • Lọc nội dung xâm hại tình dục trẻ em: Quy trình lọc nghiêm ngặt nội dung xâm hại tình dục trẻ em (CSAM) được áp dụng ở nhiều giai đoạn trong quá trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Nhằm giúp các mô hình huấn luyện trước của Gemma trở nên an toàn và đáng tin cậy, chúng tôi đã sử dụng các kỹ thuật tự động để lọc ra một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
  • Các phương thức bổ sung: Lọc dựa trên chất lượng và độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về mô hình bên trong.

Phần cứng

Gemma được huấn luyện bằng phần cứng thế hệ mới nhất của Bộ xử lý cảm biến (TPU) (TPUv5p).

Việc huấn luyện các mô hình ngôn ngữ lớn đòi hỏi sức mạnh tính toán đáng kể. TPU, được thiết kế riêng cho các thao tác ma trận phổ biến trong công nghệ học máy, mang lại một số lợi thế trong miền này:

  • Hiệu suất: TPU được thiết kế đặc biệt để xử lý các phép tính lớn liên quan đến việc huấn luyện các mô hình ngôn ngữ lớn (LLM). Các API này có thể tăng tốc độ huấn luyện đáng kể so với CPU.
  • Bộ nhớ: TPU thường đi kèm với một lượng lớn bộ nhớ băng thông cao, cho phép xử lý các mô hình và kích thước lô lớn trong quá trình huấn luyện. Điều này có thể giúp cải thiện chất lượng mô hình.
  • Khả năng mở rộng: Nhóm TPU (các cụm TPU lớn) cung cấp một giải pháp có thể mở rộng để xử lý độ phức tạp ngày càng tăng của các mô hình nền tảng lớn. Bạn có thể phân phối nội dung huấn luyện trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
  • Hiệu quả về chi phí: Trong nhiều trường hợp, TPU có thể là giải pháp tiết kiệm chi phí hơn để huấn luyện các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi xem xét thời gian và tài nguyên tiết kiệm được do đào tạo nhanh hơn.
  • Những lợi thế này phù hợp với các cam kết của Google về hoạt động bền vững.

Phần mềm

Chúng tôi thực hiện khoá đào tạo bằng JAXLộ trình học máy.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh hơn và hiệu quả hơn.

Lộ trình học máy là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống thông minh nhân tạo có khả năng tổng quát hoá nhiều nhiệm vụ. Điều này đặc biệt phù hợp với các mô hình nền tảng, bao gồm cả các mô hình ngôn ngữ lớn như các mô hình này.

Lộ trình JAX và ML được sử dụng cùng nhau như mô tả trong bài viết về nhóm mô hình Gemini; "mô hình lập trình "bộ điều khiển duy nhất" của Jax và Pathways cho phép một quy trình Python duy nhất sắp xếp toàn bộ quá trình huấn luyện, giúp đơn giản hoá đáng kể quy trình phát triển."

Đánh giá

Chỉ số và kết quả đánh giá mô hình.

Kết quả đo điểm chuẩn

Các mô hình này được đánh giá dựa trên một tập hợp lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc tạo văn bản:

Benchmark (Điểm chuẩn) Chỉ số Gemma PT 9B Gemma PT 27B
MMLU 5 tấm, hàng đầu 71,3 75,2
HellaSwag Chụp 10 tấm 81,9 86,4
PIQA ảnh 0 81,7 83,2
SocialIQA ảnh 0 53,4 53,7
BoolQ ảnh 0 84,2 84,8
WinoGrande điểm không hoàn chỉnh 80,6 83,7
ARC-e ảnh 0 88,0 88,6
ARC-c 25 bức ảnh 68,4 71,4
TriviaQA 5 ảnh 76,6 83,7
Câu hỏi tự nhiên 5 ảnh 29,2 34,5
HumanEval truyền@1 40,2 51,8
MBPP Chụp 3 tấm 52,4 62,6
GSM8K 5 ảnh, maj@1 68,6 74,0
MATH 4 tấm 36,6 42,3
AGIEval 3-5 ảnh 52,8 55.1
Ghế dài Mũi tên 3 điểm, CoT 68.2 74,9

Đạo đức và an toàn

Phương pháp và kết quả đánh giá về đạo đức và sự an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nhóm đỏ nội bộ đối với các chính sách nội dung có liên quan. Một số nhóm khác nhau đã tiến hành lập nhóm đỏ, mỗi nhóm có những mục tiêu và chỉ số đánh giá khác nhau. Các mô hình này được đánh giá dựa trên một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • Sự an toàn của nội dung từ văn bản sang văn bản: Đánh giá của nhân viên về các câu lệnh liên quan đến chính sách an toàn, bao gồm cả nội dung bóc lột và xâm hại tình dục trẻ em, quấy rối, bạo lực và đẫm máu hay lời nói hận thù.
  • Tác động đối với việc trình bày nội dung văn bản thành văn bản: Điểm chuẩn dựa trên các tập dữ liệu học thuật có liên quan như WinoBiasTập dữ liệu BBQ.
  • Sự ghi nhớ: Hệ thống tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro bị lộ thông tin nhận dạng cá nhân.
  • Thiệt hại trên quy mô lớn: Các cuộc thử nghiệm về "khả năng nguy hiểm", chẳng hạn như rủi ro hoá học, sinh học, phóng xạ và hạt nhân (CBRN).

Kết quả đánh giá

Kết quả đánh giá về đạo đức và tính an toàn đều nằm trong các ngưỡng được chấp nhận để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung, tác hại có tính biểu thị, khả năng ghi nhớ, tác hại trên quy mô lớn. Ngoài các kết quả đánh giá nội bộ hiệu quả, kết quả của các điểm chuẩn an toàn phổ biến như BBQ, BOLD, Winogender, Winobias, RealToxicity và TruthfulQA sẽ được hiển thị tại đây.

Gemma 2.0

Benchmark (Điểm chuẩn) Chỉ số Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity trung bình 8,25 8,84
Cặp quạ top-1 37,47 36,67
BBQ Ambig Ảnh chụp một lần, ảnh chân dung 1 88,58 85,99
BBQ Disambig top-1 82,67 86,94
Người chuyển giới top-1 79,17 77,22
TruthfulQA 50,27 51,6
Winobias 1_2 78,09 81,94
Winobias 2_2 95,32 97,22
Chất độc 39,30 38,42

Mức sử dụng và giới hạn

Những mô hình này có một số hạn chế nhất định mà người dùng cần lưu ý.

Mục đích sử dụng

Các mô hình ngôn ngữ lớn (LLM) mở có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách các mục đích sử dụng tiềm năng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin bối cảnh về các trường hợp sử dụng có thể xảy ra mà người tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình.

  • Giao tiếp và sáng tạo nội dung
    • Tạo văn bản: Các mô hình này có thể dùng để tạo định dạng văn bản sáng tạo, chẳng hạn như thơ, kịch bản, mã, nội dung tiếp thị và email nháp.
    • Bot trò chuyện và AI trò chuyện: Hỗ trợ các giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc các ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về tập sao lục văn bản, báo cáo nghiên cứu hoặc báo cáo.
  • Nghiên cứu và Giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Những mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ các trải nghiệm học ngôn ngữ có tính tương tác, hỗ trợ sửa ngữ pháp hoặc luyện viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá khối lượng văn bản lớn bằng cách tạo bản tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình này. Độ lệch hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến giới hạn trong các phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các lĩnh vực mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và mức độ phức tạp của công việc
    • Các LLM hoạt động hiệu quả hơn trong những nhiệm vụ có thể được lên khung bằng các câu lệnh và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn cho bạn.
    • Lượng ngữ cảnh được cung cấp có thể ảnh hưởng đến hiệu suất của mô hình (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, đến một thời điểm nhất định).
  • Sự không rõ ràng và sắc thái của ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã rất phức tạp. Các LLM có thể gặp khó khăn trong việc nắm bắt những sắc thái tinh tế, mang tính châm biếm hoặc ngôn ngữ hình tượng.
  • Độ chính xác thực tế
    • Các LLM tạo ra câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện của mình, nhưng chúng không phải là cơ sở kiến thức. Chúng có thể tạo ra các nhận định thực tế không chính xác hoặc lỗi thời.
  • Nhận thức thông thường
    • Các LLM dựa vào các mẫu thống kê theo ngôn ngữ. Họ có thể thiếu khả năng áp dụng lý luận thông thường trong một số tình huống.

Các cân nhắc về đạo đức và rủi ro

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đặt ra một số mối lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thiên vị và công bằng
    • Các LLM được huấn luyện dựa trên dữ liệu văn bản trong thế giới thực, có quy mô lớn có thể phản ánh những thiên kiến về văn hoá xã hội được lồng ghép trong tài liệu đào tạo. Các mô hình này đã được xem xét kỹ lưỡng, xử lý trước dữ liệu đầu vào theo mô tả và đánh giá sau được báo cáo trong thẻ này.
  • Thông tin sai lệch và lạm dụng
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai lệch, gây hiểu lầm hoặc gây hại.
    • Chúng tôi đưa ra hướng dẫn về việc sử dụng mô hình này một cách có trách nhiệm. Vui lòng xem phần Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình:
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, hạn chế và quy trình đánh giá của mô hình.
    • Một mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ quá trình đổi mới bằng cách cung cấp công nghệ LLM (mô hình ngôn ngữ lớn) cho các nhà phát triển và nhà nghiên cứu trên hệ sinh thái AI.

Rủi ro đã xác định và giảm thiểu:

  • Duy trì độ sai lệch: Bạn nên thực hiện hoạt động giám sát liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá kỹ thuật khử sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cần có các cơ chế và nguyên tắc để đảm bảo an toàn nội dung. Nhà phát triển nên thận trọng và triển khai các biện pháp đảm bảo an toàn phù hợp về nội dung, dựa trên chính sách sản phẩm cụ thể và các trường hợp sử dụng ứng dụng của họ.
  • Sử dụng sai mục đích cho các mục đích độc hại: Các hạn chế về mặt kỹ thuật, chương trình đào tạo cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Cung cấp các tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích. Các trường hợp sử dụng mô hình Gemma bị cấm được nêu trong Chính sách về các hành vi bị cấm khi Gemma.
  • Vi phạm quyền riêng tư: Các mô hình đã được huấn luyện về dữ liệu đã được lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ lớn mở với hiệu suất cao, được thiết kế từ đầu cho mục đích phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã cho thấy hiệu suất vượt trội so với các giải pháp thay thế mô hình mở khác có quy mô tương đương.