Thẻ mô hình RecurrentGemma

Trang mô hình: RecurrentGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Thông tin tóm tắt về mô hình

Nội dung mô tả

RecurrentGemma là một dòng mô hình ngôn ngữ mở được xây dựng dựa trên kiến trúc tái tạo mới lạ được phát triển tại Google. Cả phiên bản đào tạo trước và phiên bản điều chỉnh theo hướng dẫn đều có bằng tiếng Anh.

Giống như Gemma, các mô hình RecurrentGemma rất phù hợp với nhiều tác vụ tạo văn bản, bao gồm trả lời câu hỏi, tóm tắt và lập luận. Do cấu trúc mới, RecurrentGemma đòi hỏi ít bộ nhớ hơn Gemma và đạt được khả năng suy luận nhanh hơn khi tạo các trình tự dài.

Đầu vào và đầu ra

  • Thông tin đầu vào: Chuỗi văn bản (ví dụ: câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt).
  • Đầu ra: Văn bản tiếng Anh được tạo để phản hồi nội dung đầu vào (ví dụ: câu trả lời cho câu hỏi, bản tóm tắt tài liệu).

Trích dẫn

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dữ liệu về mô hình

Tập dữ liệu huấn luyện và quá trình xử lý dữ liệu

RecurrentGemma sử dụng cùng một dữ liệu huấn luyện và quy trình xử lý dữ liệu như được sử dụng trong dòng mô hình Gemma. Bạn có thể xem nội dung mô tả đầy đủ trên thẻ mô hình Gemma.

Thông tin triển khai

Phần cứng và khung sử dụng trong quá trình đào tạo

Giống như Gemma, RecurrentGemma được huấn luyện về TPUv5e, bằng JAXLộ trình học máy.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Phương pháp đánh giá

Các mô hình này được đánh giá dựa trên một tập hợp lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc tạo văn bản:

Kết quả đánh giá

Benchmark (Điểm chuẩn) Chỉ số Gemma 2B lặp lại RecurrentGemma 9B
MMLU 5 tấm, hàng đầu 38,4 60,5
HellaSwag ảnh 0 71,0 80,4
PIQA ảnh 0 78,5 81,3
SocialIQA ảnh 0 51,8 52,3
BoolQ ảnh 0 71,3 80,3
WinoGrande điểm không hoàn chỉnh 67,8 73,6
CommonsenseQA 7 tấm 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 ảnh 52,5 70,5
Câu hỏi tự nhiên 5 ảnh 11,5 21,7
HumanEval truyền@1 21,3 31,1
MBPP Chụp 3 tấm 28.8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 tấm 11.0 23,8
AGIEval 23,8 39,3
Ghế dài 35,3 55,2
Trung bình 44,6 56,1

Đạo đức và an toàn

Đánh giá về đạo đức và sự an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử nhóm đỏ nội bộ đối với các chính sách nội dung có liên quan. Một số nhóm khác nhau đã tiến hành lập nhóm đỏ, mỗi nhóm có những mục tiêu và chỉ số đánh giá khác nhau. Các mô hình này được đánh giá dựa trên một số danh mục liên quan đến đạo đức và an toàn, bao gồm:

  • Sự an toàn của nội dung chuyển văn bản sang văn bản: Đánh giá của nhân viên đối với các câu lệnh liên quan đến các chính sách an toàn, bao gồm cả nội dung bóc lột và xâm hại tình dục trẻ em, quấy rối, nội dung bạo lực và đẫm máu cũng như lời nói hận thù.
  • Tác hại đến việc trình bày văn bản thành văn bản: Điểm chuẩn dựa trên các tập dữ liệu học thuật có liên quan như WinoBias và Tập dữ liệu BBQ.
  • Ghi nhớ: Hệ thống tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro bị lộ thông tin nhận dạng cá nhân.
  • Gây tổn hại trên quy mô lớn: Các thử nghiệm về "khả năng nguy hiểm", chẳng hạn như rủi ro về hoá học, sinh học, phóng xạ và hạt nhân (CBRN), cũng như các thử nghiệm về khả năng thuyết phục và lừa đảo, an ninh mạng và sao chép tự chủ.

Kết quả đánh giá

Kết quả đánh giá về đạo đức và tính an toàn nằm trong ngưỡng được chấp nhận để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung, tổn hại về nội dung trình bày, ghi nhớ, thiệt hại trên quy mô lớn. Ngoài các hoạt động đánh giá nội bộ hiệu quả, kết quả của các điểm chuẩn an toàn nổi tiếng như BBQ, Winogender, WinoBias, RealToxicity và TruthfulQA được hiển thị ở đây.

Benchmark (Điểm chuẩn) Chỉ số Gemma 2B lặp lại RecurrentGemma 2B CNTT RecurrentGemma 9B RecurrentGemma 9B CNTT
RealToxicity trung bình 9,8 7,60 10.3 8.8
MẪU 39,3 52,3 39,8 47,9
Cặp quạ top-1 41,1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Người chuyển giới top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Chất độc 56,7 50,0 58,8 64,5

Mức sử dụng và giới hạn của mô hình

Các hạn chế đã biết

Những mô hình này có một số hạn chế nhất định mà người dùng cần lưu ý:

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Độ lệch hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến giới hạn trong các phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các lĩnh vực mà mô hình có thể xử lý hiệu quả.
  • Bối cảnh và độ phức tạp của tác vụ
    • Các LLM hoạt động hiệu quả hơn trong những nhiệm vụ có thể được lên khung bằng các câu lệnh và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn cho bạn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, đến một thời điểm nhất định).
  • Sự không rõ ràng và sắc thái về ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã rất phức tạp. Các LLM có thể gặp khó khăn trong việc nắm bắt các sắc thái nhỏ, ngôn từ châm biếm hoặc biểu tượng.
  • Độ chính xác thực tế
    • Các LLM tạo ra câu trả lời dựa trên thông tin mà chúng học được từ các tập dữ liệu huấn luyện của mình, nhưng chúng không phải là cơ sở kiến thức. Chúng có thể tạo ra các nhận định thực tế không chính xác hoặc lỗi thời.
  • Thông thường
    • Các LLM dựa vào các mẫu thống kê theo ngôn ngữ. Họ có thể thiếu khả năng áp dụng lập luận theo lẽ thường trong một số tình huống.

Cân nhắc và rủi ro về đạo đức

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đặt ra một số mối lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thành kiến và công bằng
    • Các LLM được huấn luyện về dữ liệu văn bản trong thế giới thực, có quy mô lớn có thể phản ánh các thiên kiến về văn hoá xã hội được nhúng trong tài liệu đào tạo. Các mô hình này đã được xem xét kỹ lưỡng, xử lý trước dữ liệu đầu vào theo mô tả và đánh giá sau được báo cáo trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai lệch, gây hiểu lầm hoặc có hại.
    • Để nắm được hướng dẫn về việc sử dụng mô hình này một cách có trách nhiệm, vui lòng xem Bộ công cụ về AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, chức năng, hạn chế và quy trình đánh giá của mô hình.
    • Một mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ về sự đổi mới bằng cách giúp các nhà phát triển và nhà nghiên cứu trong hệ sinh thái AI có thể tiếp cận công nghệ LLM.

Rủi ro đã phát hiện và giảm thiểu:

  • Duy trì sự sai lệch: Bạn nên liên tục theo dõi (bằng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá kỹ thuật khử sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cần có cơ chế và nguyên tắc để đảm bảo an toàn nội dung. Các nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn nội dung phù hợp dựa trên chính sách sản phẩm cụ thể và trường hợp sử dụng ứng dụng của họ.
  • Sử dụng sai mục đích cho các mục đích độc hại: Các hạn chế về mặt kỹ thuật, hướng dẫn cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Cung cấp các tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong điều khoản sử dụng của chúng tôi.
  • Vi phạm quyền riêng tư: Các mô hình đã được huấn luyện về dữ liệu đã lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Mục đích sử dụng

Ứng dụng

Các mô hình ngôn ngữ lớn (LLM) mở có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách các mục đích sử dụng tiềm năng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin bối cảnh về các trường hợp sử dụng có thể xảy ra mà người tạo mô hình đã xem xét trong quá trình huấn luyện và phát triển mô hình.

  • Giao tiếp và sáng tạo nội dung
    • Tạo văn bản: Các mô hình này có thể dùng để tạo các định dạng văn bản sáng tạo như thơ, kịch bản, mã, nội dung tiếp thị, bản nháp email và nhiều định dạng khác.
    • bot trò chuyện và AI đàm thoại: Hỗ trợ các giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc các ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về tập sao lục văn bản, bài viết nghiên cứu hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình này có thể đóng vai trò là nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ các trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa ngữ pháp hoặc luyện viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá phần lớn văn bản bằng cách tạo bản tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các phương thức triển khai mô hình ngôn ngữ lớn mở với hiệu suất cao, được thiết kế từ đầu cho mục đích phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Khi sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã cho thấy hiệu suất vượt trội so với các giải pháp thay thế mô hình mở khác có quy mô tương đương.

Cụ thể, các mô hình RecurrentGemma đạt được hiệu suất tương đương với các mô hình Gemma nhưng nhanh hơn trong quá trình suy luận và cần ít bộ nhớ hơn, đặc biệt là trên các trình tự dài.