Thẻ mô hình RecurrentGemma

Trang mô hình: RecurrentGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Tóm tắt mô hình

Mô tả

RecurrentGemma là một nhóm các mô hình ngôn ngữ mở được xây dựng dựa trên một cấu trúc lặp lại mới được phát triển tại Google. Cả phiên bản được huấn luyện trước và phiên bản được điều chỉnh theo hướng dẫn đều có sẵn bằng tiếng Anh.

Giống như Gemma, các mô hình RecurrentGemma rất phù hợp với nhiều nhiệm vụ tạo văn bản, bao gồm cả việc trả lời câu hỏi, tóm tắt và suy luận. Do có kiến trúc mới, RecurrentGemma cần ít bộ nhớ hơn Gemma và đạt được suy luận nhanh hơn khi tạo các trình tự dài.

Đầu vào và đầu ra

  • Dữ liệu đầu vào: Chuỗi văn bản (ví dụ: câu hỏi, câu lệnh hoặc tài liệu cần được tóm tắt).
  • Kết quả: Văn bản bằng tiếng Anh được tạo để phản hồi dữ liệu đầu vào (ví dụ: câu trả lời cho câu hỏi, bản tóm tắt tài liệu).

Trích dẫn

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dữ liệu mô hình

Tập dữ liệu huấn luyện và xử lý dữ liệu

RecurrentGemma sử dụng cùng một dữ liệu huấn luyện và quy trình xử lý dữ liệu như gia đình mô hình Gemma. Bạn có thể xem nội dung mô tả đầy đủ trên thẻ mô hình Gemma.

Thông tin triển khai

Phần cứng và khung được sử dụng trong quá trình huấn luyện

Giống như Gemma, RecurrentGemma được huấn luyện trên TPUv5e bằng cách sử dụng JAXML Pathways.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Phương pháp đánh giá

Các mô hình này được đánh giá dựa trên một tập hợp lớn các tập dữ liệu và chỉ số khác nhau để bao gồm nhiều khía cạnh của việc tạo văn bản:

Kết quả đánh giá

Benchmark (Điểm chuẩn) Chỉ số RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 ảnh, 1 ảnh đẹp nhất 38,4 60,5
HellaSwag 0-shot 71,0 80,4
PIQA 0-shot 78,5 81,3
SocialIQA 0-shot 51,8 52,3
BoolQ 0-shot 71,3 80,3
WinoGrande điểm một phần 67,8 73,6
CommonsenseQA 7 cảnh quay 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52
TriviaQA 5 lần chụp 52,5 70,5
Câu hỏi tự nhiên 5 lần chụp 11,5 21,7
HumanEval pass@1 21.3 31.1
MBPP 3 lần chụp 28.8 42
GSM8K maj@1 13,4 42,6
MATH 4 cảnh quay 11.0 23,8
AGIEval 23,8 39,3
BIG-Bench 35,3 55.2
Trung bình 44,6 56,1

Đạo đức và sự an toàn

Đánh giá về đạo đức và sự an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nội bộ theo nhóm đối thủ về các chính sách nội dung có liên quan. Một số nhóm đã tiến hành hoạt động tấn công giả lập, mỗi nhóm có các mục tiêu và chỉ số đánh giá con người khác nhau. Các mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • An toàn nội dung văn bản sang văn bản: Đánh giá thủ công đối với các câu lệnh liên quan đến chính sách về an toàn, bao gồm cả hành vi bóc lột và xâm hại tình dục trẻ em, hành vi quấy rối, bạo lực và cảnh máu me, cũng như lời nói hận thù.
  • Hậu quả tiêu cực của việc mô phỏng văn bản sang văn bản: Đo điểm chuẩn dựa trên các tập dữ liệu học thuật liên quan, chẳng hạn như WinoBias và BBQ Dataset.
  • Hoạt động ghi nhớ: Tự động đánh giá hoạt động ghi nhớ dữ liệu huấn luyện, bao gồm cả nguy cơ rò rỉ thông tin nhận dạng cá nhân.
  • Gây hại trên quy mô lớn: Kiểm thử "các chức năng nguy hiểm", chẳng hạn như rủi ro hóa học, sinh học, phóng xạ và hạt nhân (CBRN); cũng như kiểm thử tính năng thuyết phục và lừa gạt, an ninh mạng và sao chép tự động.

Kết quả đánh giá

Kết quả đánh giá về đạo đức và sự an toàn nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung, nội dung gây hại, nội dung ghi nhớ, nội dung gây hại trên quy mô lớn. Ngoài các quy trình đánh giá nội bộ nghiêm ngặt, kết quả của các điểm chuẩn an toàn nổi tiếng như BBQ, Winogender, WinoBias, RealToxicity và TruthfulQA cũng được trình bày tại đây.

Benchmark (Điểm chuẩn) Chỉ số RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B CNTT
RealToxicity trung bình 9,8 7.60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
CrowS-Pairs top-1 41.1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Winogender top-1 55.1 54,7 59,0 64.0
TruthfulQA 35.1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50 58,8 64,5

Giới hạn và cách sử dụng mô hình

Các hạn chế đã biết

Người dùng cần lưu ý một số hạn chế nhất định của các mô hình này:

  • Dữ liệu huấn luyện
    • Chất lượng và sự đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thành kiến hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến các giới hạn trong câu trả lời của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các chủ đề mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và độ phức tạp của tác vụ
    • LLM hoạt động hiệu quả hơn với các nhiệm vụ có thể được định hình bằng lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, lên đến một điểm nhất định).
  • Ngôn từ mơ hồ và sắc thái
    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. LLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời châm biếm hoặc ngôn từ hình tượng.
  • Tính chính xác về mặt thực tế
    • LLM tạo câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện, nhưng không phải là cơ sở tri thức. Các nguồn này có thể tạo ra các câu nhận định không chính xác hoặc đã lỗi thời về thực tế.
  • Thông thường
    • LLM dựa vào các mẫu thống kê trong ngôn ngữ. Chúng có thể thiếu khả năng áp dụng lý luận theo lẽ thường trong một số trường hợp.

Những điều cần cân nhắc và rủi ro về mặt đạo đức

Việc phát triển các mô hình ngôn ngữ lớn (LLM) làm nảy sinh một số mối lo ngại về mặt đạo đức. Khi tạo mô hình mở, chúng tôi đã cân nhắc kỹ những điều sau:

  • Tính thiên vị và công bằng
    • Các LLM được huấn luyện dựa trên dữ liệu văn bản thực tế trên quy mô lớn có thể phản ánh các thành kiến xã hội-văn hoá được nhúng trong tài liệu huấn luyện. Các mô hình này đã được kiểm tra kỹ lưỡng, mô tả quy trình xử lý trước dữ liệu đầu vào và báo cáo các đánh giá sau trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai
    • LLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc gây hại.
    • Chúng tôi cung cấp các nguyên tắc để sử dụng mô hình này một cách có trách nhiệm, hãy xem Bộ công cụ AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, giới hạn và quy trình đánh giá của các mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ ý tưởng đổi mới bằng cách giúp nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI tiếp cận công nghệ LLM.

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Tiếp tục duy trì thành kiến: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ thành kiến trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Các cơ chế và nguyên tắc về tính an toàn của nội dung là điều cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên các chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Sử dụng sai mục đích: Các giới hạn kỹ thuật và hoạt động đào tạo nhà phát triển cũng như người dùng cuối có thể giúp giảm thiểu việc ứng dụng LLM theo mục đích xấu. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích. Các trường hợp sử dụng bị cấm đối với mô hình Gemma được nêu trong điều khoản sử dụng của chúng tôi.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện trên dữ liệu được lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Mục đích sử dụng

Ứng dụng

Mô hình ngôn ngữ lớn (LLM) mở có nhiều ứng dụng trên nhiều ngành và lĩnh vực. Danh sách các trường hợp sử dụng tiềm năng sau đây không đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về các trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình.

  • Tạo nội dung và giao tiếp
    • Tạo văn bản: Bạn có thể dùng các mô hình này để tạo các định dạng văn bản sáng tạo như bài thơ, tập lệnh, mã, nội dung tiếp thị, email nháp, v.v.
    • Chatbot và AI đàm thoại: Cung cấp giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về một tập hợp văn bản, bài nghiên cứu hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, giúp sửa lỗi ngữ pháp hoặc cung cấp bài tập viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá các văn bản lớn bằng cách tạo bản tóm tắt hoặc trả lời các câu hỏi về các chủ đề cụ thể.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ lớn, mở và hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã cho thấy hiệu suất vượt trội so với các mô hình mở thay thế có kích thước tương đương khác.

Cụ thể, các mô hình RecurrentGemma đạt được hiệu suất tương đương với các mô hình Gemma nhưng nhanh hơn trong quá trình suy luận và yêu cầu ít bộ nhớ hơn, đặc biệt là trên các trình tự dài.