Thẻ mô hình Gemma

Trang mô hình: Gemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về dữ liệu đầu vào và đầu ra.

Mô tả

Gemma là một bộ mô hình mở, hiện đại và gọn nhẹ của Google, được xây dựng từ cùng một nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini. Đây là các mô hình ngôn ngữ lớn chỉ có bộ giải mã, từ văn bản sang văn bản, có sẵn bằng tiếng Anh, với các trọng số mở, biến thể được huấn luyện trước và biến thể được điều chỉnh theo hướng dẫn. Các mô hình Gemma rất phù hợp với nhiều nhiệm vụ tạo văn bản, bao gồm cả việc trả lời câu hỏi, tóm tắt và suy luận. Kích thước tương đối nhỏ của các mô hình này cho phép triển khai trong các môi trường có tài nguyên hạn chế, chẳng hạn như máy tính xách tay, máy tính để bàn hoặc cơ sở hạ tầng đám mây của riêng bạn, giúp mọi người tiếp cận các mô hình AI hiện đại và thúc đẩy sự đổi mới.

Đầu vào và đầu ra

  • Dữ liệu đầu vào: Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần được tóm tắt.
  • Kết quả: Văn bản bằng tiếng Anh được tạo để phản hồi dữ liệu đầu vào, chẳng hạn như câu trả lời cho một câu hỏi hoặc bản tóm tắt của một tài liệu.

Trích dẫn

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Các mô hình này được huấn luyện dựa trên một tập dữ liệu văn bản bao gồm nhiều nguồn, tổng cộng 6 nghìn tỷ mã thông báo. Sau đây là các thành phần chính:

  • Tài liệu trên web: Bộ sưu tập đa dạng các văn bản trên web đảm bảo mô hình tiếp xúc với nhiều kiểu ngôn ngữ, chủ đề và từ vựng. Nội dung chủ yếu bằng tiếng Anh.
  • Mã: Việc hiển thị mô hình cho mã giúp mô hình học cú pháp và mẫu của các ngôn ngữ lập trình, nhờ đó cải thiện khả năng tạo mã hoặc hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện về văn bản toán học giúp mô hình học cách suy luận logic, biểu diễn tượng trưng và giải quyết các truy vấn toán học.

Việc kết hợp các nguồn dữ liệu đa dạng này là rất quan trọng để huấn luyện một mô hình ngôn ngữ mạnh mẽ có thể xử lý nhiều nhiệm vụ và định dạng văn bản khác nhau.

Xử lý trước dữ liệu

Dưới đây là các phương thức lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu đào tạo:

  • Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi đã áp dụng quy trình lọc nghiêm ngặt đối với nội dung xâm hại tình dục trẻ em (CSAM) ở nhiều giai đoạn trong quy trình chuẩn bị dữ liệu để đảm bảo loại bỏ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Để đảm bảo an toàn và độ tin cậy cho các mô hình được huấn luyện trước của Gemma, chúng tôi đã sử dụng các kỹ thuật tự động để lọc ra một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi tập huấn luyện.
  • Các phương pháp khác: Lọc dựa trên chất lượng và mức độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về nội dung bên trong mô hình.

Phần cứng

Gemma được huấn luyện bằng phần cứng Bộ xử lý tensor (TPU) thế hệ mới nhất (TPUv5e).

Việc huấn luyện mô hình ngôn ngữ lớn đòi hỏi sức mạnh tính toán đáng kể. TPU, được thiết kế riêng cho các phép toán trên ma trận phổ biến trong học máy, mang lại một số lợi thế trong lĩnh vực này:

  • Hiệu suất: TPU được thiết kế riêng để xử lý các phép tính khổng lồ liên quan đến việc huấn luyện LLM. Chúng có thể tăng tốc đáng kể quá trình huấn luyện so với CPU.
  • Bộ nhớ: TPU thường đi kèm với một lượng lớn bộ nhớ băng thông cao, cho phép xử lý các mô hình lớn và kích thước lô trong quá trình huấn luyện. Điều này có thể dẫn đến chất lượng mô hình tốt hơn.
  • Khả năng mở rộng: Vùng chứa TPU (các cụm TPU lớn) cung cấp một giải pháp có thể mở rộng để xử lý sự phức tạp ngày càng tăng của các mô hình nền tảng lớn. Bạn có thể phân phối quá trình huấn luyện trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
  • Tiết kiệm chi phí: Trong nhiều trường hợp, TPU có thể cung cấp giải pháp tiết kiệm chi phí hơn để huấn luyện các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi xem xét thời gian và tài nguyên tiết kiệm được do quá trình huấn luyện nhanh hơn.
  • Những lợi thế này phù hợp với cam kết của Google về việc hoạt động bền vững.

Phần mềm

Chúng tôi đã đào tạo bằng JAXLộ trình học máy.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh và hiệu quả hơn.

ML Pathways là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống trí tuệ nhân tạo có khả năng khái quát hoá trên nhiều tác vụ. Điều này đặc biệt phù hợp với mô hình cơ sở, bao gồm cả các mô hình ngôn ngữ lớn như những mô hình này.

JAX và ML Pathways được sử dụng cùng nhau như mô tả trong bài viết về gia đình mô hình Gemini; "mô hình lập trình "điều khiển đơn" của Jax và Pathways cho phép một quy trình Python duy nhất điều phối toàn bộ quá trình chạy huấn luyện, đơn giản hoá đáng kể quy trình phát triển".

Đánh giá

Chỉ số và kết quả đánh giá mô hình.

Kết quả đo điểm chuẩn

Các mô hình này được đánh giá dựa trên một tập hợp lớn các tập dữ liệu và chỉ số khác nhau để bao gồm nhiều khía cạnh của việc tạo văn bản:

Benchmark (Điểm chuẩn) Chỉ số Gemma PT 2B Gemma PT 7B
MMLU 5 ảnh, 1 ảnh đẹp nhất 42,3 64,3
HellaSwag 0-shot 71,4 81,2
PIQA 0-shot 77,3 81,2
SocialIQA 0-shot 49,7 51,8
BoolQ 0-shot 69,4 83,2
WinoGrande điểm một phần 65,4 72,3
CommonsenseQA 7 cảnh quay 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42.1 53,2
TriviaQA 5 lần chụp 53,2 63,4
Câu hỏi tự nhiên 5 lần chụp 12,5 23.0
HumanEval pass@1 22.0 32.3
MBPP 3 lần chụp 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 cảnh quay 11.8 24,3
AGIEval 24,2 41,7
BIG-Bench 35.2 55.1
Trung bình 44,9 56,4

Đạo đức và an toàn

Phương pháp và kết quả đánh giá về đạo đức và sự an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nội bộ theo nhóm đối thủ về các chính sách nội dung có liên quan. Một số nhóm đã tiến hành hoạt động tấn công giả lập, mỗi nhóm có các mục tiêu và chỉ số đánh giá con người khác nhau. Các mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • An toàn nội dung văn bản sang văn bản: Đánh giá thủ công đối với các câu lệnh liên quan đến chính sách về an toàn, bao gồm cả hành vi bóc lột và xâm hại tình dục trẻ em, hành vi quấy rối, bạo lực và đẫm máu cũng như lời nói hận thù.
  • Nội dung gây hại trong bản dịch văn bản sang văn bản: Đo điểm chuẩn dựa trên các tập dữ liệu học thuật liên quan, chẳng hạn như WinoBiasBBQ Dataset.
  • Ghi nhớ: Đánh giá tự động việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro rò rỉ thông tin nhận dạng cá nhân.
  • Gây hại trên quy mô lớn: Kiểm thử "các khả năng nguy hiểm", chẳng hạn như rủi ro hóa học, sinh học, phóng xạ và hạt nhân (CBRN).

Kết quả đánh giá

Kết quả đánh giá về đạo đức và sự an toàn nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như an toàn cho trẻ em, an toàn nội dung, nội dung gây hại, nội dung ghi nhớ, nội dung gây hại trên quy mô lớn. Ngoài các quy trình đánh giá nội bộ nghiêm ngặt, kết quả của các điểm chuẩn về an toàn phổ biến như BBQ, BOLD, Winogender, Winobias, RealToxicity và TruthfulQA cũng được trình bày tại đây.

Gemma 1.0

Benchmark (Điểm chuẩn) Chỉ số Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity trung bình 6,86 7,90
BOLD 45,57 49,08
CrowS-Pairs top-1 45,82 51,33
BBQ Ambig 1 lần chụp, 1 bức ảnh đẹp nhất 62,58 92,54
BBQ Disambig top-1 54,62 71,99
Winogender top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Toxigen 29,77 39,59

Gemma 1.1

Benchmark (Điểm chuẩn) Chỉ số Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity trung bình 7.03 8.04
BOLD 47,76
CrowS-Pairs top-1 45,89 49,67
BBQ Ambig 1 lần chụp, 1 bức ảnh đẹp nhất 58,97 86,06
BBQ Disambig top-1 53,90 85,08
Winogender top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 55,93 59,22
Winobias 2_2 89,46 89,2
Toxigen 29,64 38,75

Cách sử dụng và hạn chế

Người dùng cần lưu ý một số hạn chế nhất định của các mô hình này.

Mục đích sử dụng

Mô hình ngôn ngữ lớn (LLM) mở có nhiều ứng dụng trên nhiều ngành và lĩnh vực. Danh sách các trường hợp sử dụng tiềm năng sau đây không đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình.

  • Tạo nội dung và giao tiếp
    • Tạo văn bản: Bạn có thể dùng các mô hình này để tạo các định dạng văn bản quảng cáo như bài thơ, tập lệnh, mã, nội dung tiếp thị và bản nháp email.
    • Chatbot và AI đàm thoại: Cung cấp giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về một tập hợp văn bản, bài nghiên cứu hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ mang tính tương tác, giúp sửa ngữ pháp hoặc cung cấp bài tập viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá lượng lớn văn bản bằng cách tạo bản tóm tắt hoặc trả lời các câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

  • Dữ liệu huấn luyện
    • Chất lượng và sự đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thành kiến hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến các giới hạn trong câu trả lời của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các chủ đề mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và độ phức tạp của tác vụ
    • LLM hoạt động hiệu quả hơn với các nhiệm vụ có thể được định hình bằng lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, lên đến một điểm nhất định).
  • Tính mơ hồ và sắc thái của ngôn ngữ
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. LLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời châm biếm hoặc ngôn ngữ hình tượng.
  • Độ chính xác về mặt thực tế
    • LLM tạo câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện, nhưng không phải là cơ sở tri thức. Các nguồn này có thể tạo ra các câu nhận định không chính xác hoặc đã lỗi thời về thực tế.
  • Common Sense
    • LLM dựa vào các mẫu thống kê trong ngôn ngữ. Chúng có thể thiếu khả năng áp dụng lý luận theo lẽ thường trong một số trường hợp.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển các mô hình ngôn ngữ lớn (LLM) làm nảy sinh một số mối lo ngại về mặt đạo đức. Khi tạo mô hình mở, chúng tôi đã cân nhắc kỹ những điều sau:

  • Sự thiên vị và tính công bằng
    • Các LLM được huấn luyện dựa trên dữ liệu văn bản thực tế trên quy mô lớn có thể phản ánh các thành kiến về văn hoá xã hội được nhúng trong tài liệu huấn luyện. Các mô hình này đã trải qua quá trình kiểm tra kỹ lưỡng, mô tả quy trình xử lý trước dữ liệu đầu vào và báo cáo các đánh giá sau đó trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • LLM có thể bị sử dụng sai mục đích để tạo văn bản sai lệch, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình:
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, giới hạn và quy trình đánh giá của các mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ ý tưởng đổi mới bằng cách giúp nhà phát triển và nhà nghiên cứu tiếp cận công nghệ LLM trên hệ sinh thái AI.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Sự tồn tại của thiên kiến: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ thiên kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cơ chế và nguyên tắc về an toàn nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên các chính sách sản phẩm cụ thể và trường hợp sử dụng ứng dụng.
  • Sử dụng sai mục đích: Các giới hạn kỹ thuật và hoạt động đào tạo nhà phát triển cũng như người dùng cuối có thể giúp giảm thiểu việc ứng dụng LLM theo mục đích xấu. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện trên dữ liệu đã được lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ lớn, mở và hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã cho thấy hiệu suất vượt trội so với các mô hình mở thay thế có kích thước tương đương khác.