Thẻ mô hình Gemma 2

Trang mô hình: Gemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về dữ liệu đầu vào và đầu ra.

Mô tả

Gemma là một dòng mô hình mở, nhẹ và tiên tiến của Google, được xây dựng dựa trên chính nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini. Đó là các mô hình ngôn ngữ lớn chỉ có bộ giải mã, chuyển văn bản thành văn bản, có sẵn bằng tiếng Anh, có trọng số mở cho cả biến thể huấn luyện trước lẫn biến thể được điều chỉnh theo hướng dẫn. Mô hình Gemma rất phù hợp với nhiều tác vụ tạo văn bản, bao gồm trả lời câu hỏi, tóm tắt và suy luận. Kích thước tương đối nhỏ giúp bạn có thể triển khai chúng trong các môi trường có tài nguyên hạn chế như máy tính xách tay, máy tính để bàn hoặc cơ sở hạ tầng đám mây của riêng bạn, cho phép mọi người truy cập vào các mô hình AI tiên tiến và giúp thúc đẩy sự đổi mới cho mọi người.

Đầu vào và đầu ra

  • Thông tin đầu vào: Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt.
  • Kết quả: Văn bản tiếng Anh được tạo để phản hồi nội dung nhập, chẳng hạn như dưới dạng câu trả lời cho câu hỏi hoặc bản tóm tắt tài liệu.

Trích dẫn

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Những mô hình này được huấn luyện dựa trên một tập dữ liệu văn bản bao gồm nhiều loại nguồn. Mô hình 27B được huấn luyện bằng 13 nghìn tỷ token, còn mô hình 9B được được huấn luyện bằng 8 nghìn tỷ token và mô hình 2B được huấn luyện bằng 2 nghìn tỷ token. Dưới đây là các thành phần chính:

  • Tài liệu web: Một bộ sưu tập văn bản web đa dạng đảm bảo mô hình được hiển thị vào một loạt phong cách ngôn ngữ, chủ đề và từ vựng. Chủ yếu Nội dung bằng tiếng Anh.
  • Mã: Việc hiển thị mô hình cho mã giúp mô hình học cú pháp và các mẫu của ngôn ngữ lập trình, giúp cải thiện khả năng tạo mã hoặc hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện về văn bản toán học sẽ giúp mô hình này học được tính logic suy luận, biểu diễn bằng ký hiệu và giải quyết các truy vấn toán học.

Sự kết hợp của các nguồn dữ liệu đa dạng này đóng vai trò quan trọng trong việc đào tạo mô hình ngôn ngữ có thể xử lý nhiều tác vụ và văn bản khác nhau .

Xử lý trước dữ liệu

Sau đây là các phương pháp chính làm sạch và lọc dữ liệu được áp dụng trong khoá đào tạo dữ liệu:

  • Lọc nội dung xâm hại tình dục trẻ em: Lọc nội dung xâm hại tình dục trẻ em một cách nghiêm ngặt được áp dụng ở nhiều giai đoạn trong quá trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Là một phần để đảm bảo các mô hình huấn luyện trước của Gemma trở nên an toàn và kỹ thuật tự động, đáng tin cậy đã được dùng để lọc ra một số và các dữ liệu nhạy cảm khác từ các tập huấn luyện.
  • Các phương pháp bổ sung: Lọc dựa trên chất lượng và độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về mô hình bên trong.

Phần cứng

Gemma được huấn luyện bằng cách sử dụng thế hệ Phần cứng Bộ xử lý cảm biến (TPU) (TPUv5p).

Việc huấn luyện các mô hình ngôn ngữ lớn đòi hỏi sức mạnh tính toán đáng kể. TPU, được thiết kế riêng cho các phép toán ma trận phổ biến trong học máy, hãy cung cấp một số lợi thế trong miền này:

  • Hiệu suất: TPU được thiết kế đặc biệt để xử lý các phép tính lớn liên quan đến việc huấn luyện các mô hình ngôn ngữ lớn (LLM). Chúng có thể đẩy nhanh quá trình đào tạo đáng kể so với CPU.
  • Bộ nhớ: TPU thường đi kèm với một lượng lớn bộ nhớ băng thông cao, cho phép để xử lý các mô hình lớn và kích thước lô trong quá trình huấn luyện. Điều này có thể giúp có được chất lượng mô hình tốt hơn.
  • Khả năng mở rộng: Nhóm TPU (các cụm TPU lớn) cung cấp một giải pháp có thể mở rộng xử lý ngày càng nhiều sự phức tạp của các mô hình nền tảng lớn. Bạn có thể phân phối trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
  • Hiệu quả về chi phí: Trong nhiều trường hợp, TPU có thể giúp tiết kiệm chi phí hơn giải pháp để huấn luyện các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi cân nhắc thời gian và tài nguyên tiết kiệm được nhờ việc rút ngắn thời gian huấn luyện.
  • Những lợi thế này phù hợp với Cam kết của Google về hoạt động bền vững.

Phần mềm

Chúng tôi thực hiện khoá đào tạo bằng JAXLộ trình học máy.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để đào tạo các mô hình lớn nhanh hơn và hiệu quả hơn.

Lộ trình học máy là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống thông minh nhân tạo có khả năng khái quát hoá nhiều nhiệm vụ. Điều này đặc biệt thích hợp cho mô hình nền tảng, bao gồm cả các mô hình ngôn ngữ lớn như những ứng dụng này.

Lộ trình JAX và ML được sử dụng đồng thời như được mô tả trong bài viết về nhóm mô hình Gemini; "đơn bộ điều khiển mô hình lập trình của Jax và Pathways cho phép một Python quy trình tổ chức toàn bộ quá trình đào tạo, đơn giản hoá đáng kể quy trình phát triển".

Đánh giá

Chỉ số và kết quả đánh giá mô hình.

Kết quả đo điểm chuẩn

Các mô hình này đã được đánh giá dựa trên một tập hợp lớn gồm các tập dữ liệu khác nhau và để bao gồm các khía cạnh khác nhau của việc tạo văn bản:

Benchmark (Điểm chuẩn) Chỉ số Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 tấm, hàng đầu 51,3 71,3 75,2
HellaSwag Chụp 10 tấm 73,0 81,9 86,4
PIQA ảnh 0 77,8 81,7 83,2
SocialIQA ảnh 0 51,9 53,4 53,7
BoolQ ảnh 0 72,5 84,2 84,8
WinoGrande điểm không hoàn chỉnh 70,9 80,6 83,7
ARC-e ảnh 0 80,1 88,0 88,6
ARC-c 25 bức ảnh 55,4 68,4 71,4
TriviaQA 5 ảnh 59,4 76,6 83,7
Câu hỏi tự nhiên 5 ảnh 16,7 29,2 34,5
HumanEval truyền@1 17,7 40,2 51,8
MBPP Chụp 3 tấm 29,6 52,4 62,6
GSM8K 5 ảnh, maj@1 23,9 68,6 74,0
MATH 4 tấm 15 36,6 42,3
AGIEval 3-5 ảnh 30,6 52,8 55.1
DROP 3 ảnh, F1 52,0 69,4 72,2
Ghế dài Mũi tên 3 điểm, CoT 41,9 68.2 74,9

Đạo đức và an toàn

Phương pháp và kết quả đánh giá về đạo đức và sự an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và phương pháp nhóm đỏ nội bộ thử nghiệm các chính sách nội dung có liên quan. Quá trình lập đội Đỏ được thực hiện bởi một số nhóm khác nhau, mỗi nhóm có mục tiêu và chỉ số đánh giá khác nhau. Các các mô hình này được đánh giá theo một số danh mục khác nhau có liên quan đến đạo đức và an toàn, bao gồm:

  • An toàn đối với nội dung từ văn bản sang văn bản: Đánh giá của nhân viên về các câu lệnh liên quan đến vấn đề an toàn các chính sách bao gồm bóc lột và xâm hại tình dục trẻ em, quấy rối, bạo lực đẫm máu và lời nói hận thù.
  • Tác hại đối với nội dung trình bày khi chuyển văn bản sang văn bản: Điểm chuẩn so với nội dung học thuật có liên quan như WinoBiasBBQ Dataset.
  • Ghi nhớ: Tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm rủi ro bị lộ thông tin nhận dạng cá nhân.
  • Tác hại trên quy mô lớn: Các cuộc thử nghiệm về "khả năng gây nguy hiểm", chẳng hạn như hoá chất, rủi ro về sinh học, phóng xạ và hạt nhân (CBRN).

Kết quả đánh giá

Kết quả đánh giá về đạo đức và tính an toàn đều nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ của các danh mục như trẻ em sự an toàn, sự an toàn của nội dung, tổn hại về mặt trình bày, khả năng ghi nhớ, tác hại trên quy mô lớn. Ngoài các kết quả đánh giá nội bộ hiệu quả, kết quả là những điểm an toàn nổi tiếng các điểm chuẩn như BBQ, BOLD, Winogender, Winobias, RealToxicity và TruthfulQA được hiển thị ở đây.

Gemma 2.0

Benchmark (Điểm chuẩn) Chỉ số Gemma 2 IT 2B Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity trung bình 8,16 8,25 8,84
Cặp quạ top-1 37,67 37,47 36,67
BBQ Ambig Ảnh chụp một lần, ảnh chân dung 1 83,20 88,58 85,99
BBQ Disambig top-1 69,31 82,67 86,94
Người chuyển giới top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,6
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Đánh giá khả năng nguy hiểm

Phương pháp đánh giá

Chúng tôi đã đánh giá một loạt tính năng nguy hiểm:

  • An ninh mạng tấn công: Để đánh giá khả năng mô hình bị sử dụng sai trong ngữ cảnh an ninh mạng, chúng tôi đã sử dụng cả hai nền tảng Các nền tảng Capture-the-flag (CTF) như InterCode-CTF và Hack the Box, với tư cách là cũng như phát triển nội bộ các thách thức CTF. Các đánh giá này đo lường khả năng của mô hình trong việc khai thác các lỗ hổng bảo mật và có được quyền truy cập trái phép trong môi trường mô phỏng.
  • Tự tăng sinh: Chúng tôi đã đánh giá khả năng của mô hình đối với tăng trưởng nhanh bằng cách thiết kế các nhiệm vụ liên quan đến việc thu nạp tài nguyên, viết mã thực thi và tương tác với các hệ thống từ xa. Các thông tin đánh giá này khả năng nhân bản và lan truyền của mô hình một cách độc lập.
  • Thuyết phục:Để đánh giá khả năng thuyết phục của mô hình và lừa đảo, chúng tôi đã tiến hành các nghiên cứu thuyết phục con người. Các nghiên cứu này liên quan đến các kịch bản đo lường khả năng xây dựng mối quan hệ, tác động của mô hình niềm tin và gợi ra hành động cụ thể của những người tham gia.

Kết quả đánh giá

Tất cả hoạt động đánh giá được mô tả chi tiết trong Đánh giá mô hình biên giới về các khả năng nguy hiểm và tóm lại là trong Báo cáo kỹ thuật về Gemma 2.

Đánh giá Chức năng Gemma 2 IT 27B
InterCode-CTF Hành vi tấn công an ninh mạng Thử thách 34/76
CTF nội bộ Hành vi tấn công an ninh mạng Thử thách 1/13
Xâm nhập chiếc hộp Hành vi tấn công an ninh mạng Thử thách 0/13
Cảnh báo sớm tình trạng tự tăng sinh Tự tăng sinh Thử thách 1/10
Nét quyến rũ phản cảm Thuyết phục Tỷ lệ phần trăm người tham gia đồng ý: 81% thú vị, 75% sẽ nói lại, 80% đã tạo kết nối cá nhân
Nhấp vào Liên kết Thuyết phục 34% người tham gia
Tìm thông tin Thuyết phục 9% người tham gia
Chạy mã Thuyết phục 11% người tham gia
Thảo luận về tiền bạc Thuyết phục Số tiền đóng góp trung bình là 3,72 GBP
Web of Lies Thuyết phục 18% trung bình dịch chuyển đối với niềm tin chính xác, 1% trung bình dịch chuyển đối với niềm tin sai

Mức sử dụng và giới hạn

Những mô hình này có một số hạn chế nhất định mà người dùng cần lưu ý.

Mục đích sử dụng

Các mô hình ngôn ngữ lớn (LLM) mở có nhiều loại ứng dụng thuộc nhiều ngành và lĩnh vực khác nhau. Danh sách các trường hợp sử dụng tiềm năng sau đây không toàn diện. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về các trường hợp sử dụng có thể mà người tạo mô hình đã xem xét như một phần của mô hình đào tạo và phát triển.

  • Sáng tạo và trao đổi nội dung
    • Tạo văn bản: Các mô hình này có thể dùng để tạo định dạng văn bản sáng tạo chẳng hạn như thơ, kịch bản, đoạn mã, nội dung tiếp thị và bản nháp email.
    • Bot trò chuyện và AI trò chuyện: Hỗ trợ việc giao diện trò chuyện cho khách hàng dịch vụ, trợ lý ảo hoặc các ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về tập sao lục văn bản, nội dung nghiên cứu bài viết hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình này có thể đóng vai trò nền tảng cho các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển các thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa ngữ pháp hoặc hỗ trợ luyện viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá những khối văn bản lớn bằng cách tạo bản tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến các khả năng của mô hình. Độ sai lệch hoặc thiếu hụt trong dữ liệu huấn luyện có thể dẫn đến hạn chế trong các phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định lĩnh vực chuyên môn mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và mức độ phức tạp của nhiệm vụ
    • Các LLM hoạt động hiệu quả hơn trong những nhiệm vụ có thể được lên khung bằng các câu lệnh rõ ràng và hướng dẫn. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn cho bạn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của lượng bối cảnh được cung cấp (bối cảnh dài hơn thường mang lại kết quả tốt hơn, cho đến một điểm nhất định).
  • Sự không rõ ràng và sắc thái của ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã rất phức tạp. Các LLM có thể gặp khó khăn trong việc nắm bắt những thông tin tinh vi sắc thái, ngôn ngữ châm biếm hoặc tượng trưng.
  • Độ chính xác thực tế
    • Các LLM tạo ra các câu trả lời dựa trên thông tin mà chúng học được từ nhưng không phải là cơ sở kiến thức. Chúng có thể tạo ra nhận định thực tế không chính xác hoặc đã lỗi thời.
  • Nhận thức chung
    • Các LLM dựa vào các mẫu thống kê theo ngôn ngữ. Họ có thể không có khả năng áp dụng lập luận hợp lý vào những tình huống nhất định.

Các cân nhắc về đạo đức và rủi ro

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đặt ra một số mối lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thiên vị và công bằng
    • Các LLM được huấn luyện về dữ liệu văn bản trong thế giới thực, quy mô lớn có thể phản ánh văn hoá xã hội trong tài liệu đào tạo. Những mô hình này đã trải qua đánh giá xem xét kỹ lưỡng, xử lý trước dữ liệu đầu vào được mô tả và đánh giá sau được báo cáo trong thẻ này.
  • Thông tin sai lệch và lạm dụng
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai lệch, gây hiểu lầm hoặc gây hại.
    • Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình:
    • Thẻ mô hình này tóm tắt thông tin chi tiết về các mô hình cấu trúc, năng lực, hạn chế và quá trình đánh giá.
    • Một mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ bằng cách giúp các nhà phát triển và nhà nghiên cứu dễ dàng tiếp cận công nghệ LLM (mô hình ngôn ngữ lớn) trên hệ sinh thái AI.

Rủi ro đã xác định và giảm thiểu:

  • Duy trì sự sai lệch: Nên theo dõi liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và kỹ thuật khám phá cách xác định sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cơ chế và nguyên tắc để đảm bảo an toàn nội dung là điều không thể thiếu. Các nhà phát triển nên thận trọng và triển khai các biện pháp đảm bảo an toàn về nội dung phù hợp dựa trên chính sách sản phẩm cụ thể và trường hợp sử dụng ứng dụng.
  • Sử dụng sai mục đích cho các mục đích xấu: Hạn chế về kỹ thuật, nhà phát triển và hướng dẫn cho người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Các tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích đã cung cấp. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
  • Vi phạm quyền riêng tư: Các mô hình đã được huấn luyện về dữ liệu đã lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Vào thời điểm phát hành, dòng mô hình này cung cấp những phiên bản mở có hiệu suất cao việc triển khai mô hình ngôn ngữ lớn được thiết kế từ đầu cho kênh Responsible (Có trách nhiệm) Phát triển AI so với các mô hình có kích thước tương tự.

Sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã chứng minh là mang lại hiệu suất vượt trội so với các mô hình mở khác có quy mô tương đương lựa chọn thay thế.