Thẻ mô hình RecurrentGemma

Trang mô hình: RecurrentGemma

Tài liệu và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Tóm tắt mô hình

Nội dung mô tả

RecurrentGemma là một dòng mô hình ngôn ngữ mở được xây dựng dựa trên kiến trúc định kỳ mới lạ được phát triển tại Google. Cả phiên bản huấn luyện trước và phiên bản được điều chỉnh theo hướng dẫn đều có sẵn bằng tiếng Anh.

Giống như Gemma, các mô hình RecurrentGemma phù hợp với nhiều nhiệm vụ tạo văn bản, bao gồm cả trả lời câu hỏi, tóm tắt và lập luận. Do kiến trúc mới, RecurrentGemma cần ít bộ nhớ hơn Gemma và đạt được khả năng suy luận nhanh hơn khi tạo các trình tự dài.

Đầu vào và đầu ra

  • Đầu vào: Chuỗi văn bản (ví dụ: câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt).
  • Kết quả: Văn bản bằng tiếng Anh được tạo để phản hồi thông tin đầu vào (ví dụ: câu trả lời cho câu hỏi, bản tóm tắt tài liệu).

Trích dẫn

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dữ liệu về mô hình

Tập dữ liệu huấn luyện và cách xử lý dữ liệu

RecurrentGemma sử dụng cùng một cách xử lý dữ liệu và dữ liệu đào tạo mà nhóm mô hình Gemma sử dụng. Bạn có thể xem nội dung mô tả đầy đủ trên thẻ mô hình Gemma.

Thông tin triển khai

Phần cứng và khung được sử dụng trong quá trình đào tạo

Giống như Gemma, RecurrentGemma được đào tạo trên TPUv5e, bằng cách sử dụng JAXLộ trình học máy.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Phương pháp đánh giá

Các mô hình này được đánh giá dựa trên một tập hợp lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc tạo văn bản:

Kết quả đánh giá

Benchmark (Điểm chuẩn) Chỉ số Gemma tái phát 2B
Hàm MMLU 5 lần bắn, hàng đầu 1 38,4
HellaSwag 0 mũi 71
PIQA 0 mũi 78,5
SocialIQA 0 mũi 51,8
BoolQ 0 mũi 71,3
WinoGrande điểm số một phần 67,8
CommonsenseQA 7 lần 63,7
OpenBookQA 47,2
ARC-e 72,9
ARC-c 42,3
TriviaQA 5 lần 52,5
Câu hỏi tự nhiên 5 lần 11,5
HumanEval chuyền@1 21,3
MBPP 3 lần 28.8
GSM8K maj@1 13,4
MATH 4 lần 11.0
AGIEval 23,8
Ghế băng siêu lớn 35,3
Trung bình 44,6

Đạo đức và an toàn

Đánh giá về đạo đức và sự an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử kết hợp nội bộ đối với các chính sách nội dung có liên quan. Nhiều nhóm khác nhau đã tiến hành quy trình hợp tác đỏ, mỗi nhóm có những mục tiêu và chỉ số đánh giá thủ công khác nhau. Những mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và sự an toàn, bao gồm:

  • An toàn cho nội dung được chuyển từ văn bản sang văn bản: Quy trình đánh giá thủ công về các câu lệnh liên quan đến chính sách an toàn bao gồm cả hành vi bóc lột và xâm hại tình dục trẻ em, quấy rối, bạo lực và đẫm máu, cũng như lời nói hận thù.
  • Tác hại của việc thể hiện văn bản dưới dạng văn bản: Đo điểm chuẩn dựa trên các tập dữ liệu học thuật có liên quan, chẳng hạn như tập dữ liệu WinoBias và BBQ.
  • Ghi nhớ: Tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro lộ thông tin nhận dạng cá nhân.
  • Tác hại trên quy mô lớn: Các thử nghiệm nhằm xác định "các khả năng nguy hiểm", chẳng hạn như rủi ro về hoá học, sinh học, phóng xạ và hạt nhân (CBRN); cũng như thử nghiệm khả năng thuyết phục và lừa đảo, an ninh mạng và nhân bản độc lập.

Kết quả đánh giá

Kết quả đánh giá về đạo đức và mức độ an toàn đều nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung, thiệt hại về mặt thể hiện, hoạt động ghi nhớ, hành vi gây hại trên quy mô lớn. Ngoài các đánh giá nội bộ hiệu quả, kết quả của các điểm chuẩn an toàn nổi tiếng như BBQ, Winogender, Winobias, RealToxicity và TruthfulQA còn được hiển thị tại đây.

Benchmark (Điểm chuẩn) Chỉ số Gemma tái phát 2B Gemma 2B CNTT định kỳ
RealToxicity TB 9,8 7.6
Hàm BOLD 39,3 52,4
Cặp con quạ top-1 41,1 43,4
BBQ Không rõ ràng top-1 62,6 71,1
BBQ Disambig top-1 58,4 50,8
Người giới tính top-1 55.1 54,7
TruthfulQA 35,1 42,7
Winobias 1_2 58,4 56,4
Winobias 2_2 90 75,4
Độc hại 56,7 50

Việc sử dụng và giới hạn của mô hình

Các hạn chế đã biết

Các mô hình này có một số hạn chế nhất định mà người dùng cần biết:

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến các tính năng của mô hình. Độ sai lệch hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến các hạn chế trong phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các lĩnh vực chủ đề mà mô hình có thể xử lý hiệu quả.
  • Ngữ cảnh và độ phức tạp của nhiệm vụ
    • Các LLM hiệu quả hơn trong các nhiệm vụ có thể được đóng khung với lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể khó khăn.
    • Hiệu suất của một mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường mang lại kết quả tốt hơn, cho đến một điểm nhất định).
  • Sự không rõ ràng và sắc thái về ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã phức tạp. Các LLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, lời nói mỉa mai hoặc ngôn ngữ tượng hình.
  • Độ chính xác thực tế
    • Các LLM tạo phản hồi dựa trên thông tin học được từ tập dữ liệu đào tạo, nhưng không phải là cơ sở kiến thức. Những nội dung này có thể tạo ra các tuyên bố thực tế không chính xác hoặc đã lỗi thời.
  • Thông thường
    • Các LLM dựa trên các mẫu thống kê bằng ngôn ngữ. Có thể các em thiếu khả năng áp dụng lập luận thông thường trong một số tình huống.

Cân nhắc và rủi ro về mặt đạo đức

Sự phát triển các mô hình ngôn ngữ lớn (LLM) làm nảy sinh một số lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thành kiến và sự công bằng
    • Các LLM được huấn luyện dựa trên dữ liệu văn bản thực tế ở quy mô lớn có thể phản ánh các thiên kiến văn hoá xã hội được lồng ghép trong tài liệu huấn luyện. Những mô hình này đã trải qua xem xét kỹ lưỡng, xem xét kỹ lưỡng trước khi xử lý dữ liệu đầu vào (mô tả và đánh giá sau) báo cáo trong thẻ này.
  • Thông tin sai lệch và sử dụng sai mục đích
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc có hại.
    • Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm, vui lòng xem Bộ công cụ về AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, giới hạn và quy trình đánh giá của mô hình.
    • Một mô hình mở được phát triển một cách có trách nhiệm sẽ mang đến cơ hội chia sẻ các sáng kiến bằng cách giúp các nhà phát triển và nhà nghiên cứu trên hệ sinh thái AI dễ dàng tiếp cận công nghệ LLM.

Rủi ro đã xác định và giảm thiểu:

  • Duy trì độ sai lệch: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, đánh giá thủ công) và khám phá các kỹ thuật loại bỏ sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo ra nội dung gây hại: Cơ chế và nguyên tắc để đảm bảo an toàn cho nội dung là cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp bảo vệ an toàn phù hợp cho nội dung dựa trên chính sách sản phẩm và trường hợp sử dụng ứng dụng cụ thể.
  • Hành vi sử dụng sai mục đích: Những hạn chế về kỹ thuật, hướng dẫn dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Chúng tôi cung cấp tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi lạm dụng. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong điều khoản sử dụng của chúng tôi.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện về dữ liệu được lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Mục đích sử dụng

Ứng dụng

Mô hình ngôn ngữ lớn mở (LLM) có nhiều ứng dụng trong nhiều ngành và miền. Danh sách các trường hợp có thể sử dụng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về những trường hợp sử dụng có thể xảy ra mà người tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

  • Giao tiếp và sáng tạo nội dung
    • Tạo văn bản: Bạn có thể sử dụng các mô hình này để tạo các định dạng văn bản mẫu quảng cáo như thơ, tập lệnh, đoạn mã, nội dung tiếp thị, bản nháp email, v.v.
    • Chatbot và AI đàm thoại: Hỗ trợ giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc các ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về khối văn bản, bài nghiên cứu hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình này có thể đóng vai trò là nền tảng giúp các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển thuật toán và đóng góp vào sự phát triển của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ tương tác, hỗ trợ sửa lỗi ngữ pháp hoặc luyện viết.
    • Khám phá kiến thức: Hỗ trợ nhà nghiên cứu khám phá nhiều văn bản bằng cách tạo nội dung tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp cách triển khai mô hình ngôn ngữ lớn mở và hiệu suất cao, được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Nhờ sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này cho thấy hiệu suất vượt trội so với các mô hình mở khác có kích thước tương đương.

Cụ thể, các mô hình RecurrentGemma đạt được hiệu suất tương đương với các mô hình Gemma nhưng hoạt động nhanh hơn trong quá trình dự đoán và cần ít bộ nhớ hơn, đặc biệt là trên các trình tự dài.