Thẻ mô hình RecurrentGemma

Trang mô hình: RecurrentGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Thông tin tóm tắt về mô hình

Mô tả

RecurrentGemma là một dòng mô hình ngôn ngữ mở được xây dựng dựa trên nội dung lặp đi lặp lại của tiểu thuyết được phát triển tại Google. Cả hai các phiên bản đào tạo trước và điều chỉnh theo hướng dẫn có sẵn bằng tiếng Anh.

Giống như Gemma, mô hình RecurrentGemma rất phù hợp với nhiều loại văn bản các nhiệm vụ tạo, trong đó có trả lời câu hỏi, tóm tắt và lý luận. Do kiến trúc mới, RecurrentGemma cần ít bộ nhớ hơn Gemma và suy luận nhanh hơn khi tạo các trình tự dài.

Đầu vào và đầu ra

  • Thông tin đầu vào: Chuỗi văn bản (ví dụ: câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt).
  • Kết quả: Văn bản tiếng Anh được tạo để phản hồi nội dung nhập (ví dụ: câu trả lời cho câu hỏi, phần tóm tắt tài liệu).

Trích dẫn

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

Dữ liệu về mô hình

Tập dữ liệu huấn luyện và quá trình xử lý dữ liệu

RecurrentGemma sử dụng cùng một dữ liệu huấn luyện và quy trình xử lý dữ liệu như được sử dụng bởi Dòng mô hình Gemma. Bạn có thể xem nội dung mô tả đầy đủ trên mô hình Gemma .

Thông tin triển khai

Phần cứng và khung sử dụng trong quá trình đào tạo

Thích Gemma, RecurrentGemma được đào tạo về TPUv5e! dùng JAXML Lộ trình.

Thông tin đánh giá

Kết quả đo điểm chuẩn

Phương pháp đánh giá

Các mô hình này đã được đánh giá dựa trên một tập hợp lớn gồm các tập dữ liệu khác nhau và để bao gồm các khía cạnh khác nhau của việc tạo văn bản:

Kết quả đánh giá

Benchmark (Điểm chuẩn) Chỉ số Gemma 2B lặp lại RecurrentGemma 9B
MMLU 5 tấm, hàng đầu 38,4 60,5
HellaSwag ảnh 0 71,0 80,4
PIQA ảnh 0 78,5 81,3
SocialIQA ảnh 0 51,8 52,3
BoolQ ảnh 0 71,3 80,3
WinoGrande điểm không hoàn chỉnh 67,8 73,6
CommonsenseQA 7 tấm 63,7 73,2
OpenBookQA 47,2 51,8
ARC-e 72,9 78,8
ARC-c 42,3 52,0
TriviaQA 5 ảnh 52,5 70,5
Câu hỏi tự nhiên 5 ảnh 11,5 21,7
HumanEval truyền@1 21,3 31,1
MBPP Chụp 3 tấm 28.8 42,0
GSM8K maj@1 13,4 42,6
MATH 4 tấm 11.0 23,8
AGIEval 23,8 39,3
Ghế dài 35,3 55,2
Trung bình 44,6 56,1

Đạo đức và an toàn

Đánh giá về đạo đức và sự an toàn

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và phương pháp nhóm đỏ nội bộ thử nghiệm các chính sách nội dung có liên quan. Quá trình lập đội Đỏ được thực hiện bởi một số nhóm khác nhau, mỗi nhóm có mục tiêu và chỉ số đánh giá khác nhau. Các các mô hình này được đánh giá theo một số danh mục khác nhau có liên quan đến đạo đức và an toàn, bao gồm:

  • Sự an toàn của nội dung chuyển văn bản sang văn bản: Đánh giá của nhân viên về các câu lệnh đề cập đến sự an toàn các chính sách bao gồm bóc lột và xâm hại tình dục trẻ em, quấy rối, bạo lực đẫm máu và lời nói hận thù.
  • Tác hại của nội dung trình bày từ văn bản sang văn bản: Điểm chuẩn dựa trên nội dung học thuật có liên quan như WinoBias và BBQ Dataset.
  • Ghi nhớ: Tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro bị lộ thông tin nhận dạng cá nhân.
  • Tác hại trên quy mô lớn: Các thử nghiệm đối với "khả năng nguy hiểm", chẳng hạn như hoá học, rủi ro về sinh học, phóng xạ và hạt nhân (CBRN); cũng như các thử nghiệm cho thuyết phục và đánh lừa, an ninh mạng và sao chép tự chủ.

Kết quả đánh giá

Kết quả đánh giá về đạo đức và tính an toàn đều nằm trong ngưỡng chấp nhận được để họp nội bộ chính sách của Google cho các danh mục như sự an toàn cho trẻ em, sự an toàn của nội dung, hành vi gây hại mang tính biểu thị, ghi nhớ, gây hại trên quy mô lớn. Ngoài các đánh giá nội bộ hiệu quả, kết quả của các điểm chuẩn an toàn nổi tiếng như BBQ, Winogender, WinoBias, RealToxicity và TruthfulQA được hiển thị ở đây.

Benchmark (Điểm chuẩn) Chỉ số Gemma 2B lặp lại RecurrentGemma 2B CNTT RecurrentGemma 9B RecurrentGemma 9B CNTT
RealToxicity trung bình 9,8 7,60 10.3 8.8
BOLD 39,3 52,3 39,8 47,9
Cặp quạ top-1 41,1 43,4 38,7 39,5
BBQ Ambig top-1 62,6 71,1 95,9 67,1
BBQ Disambig top-1 58,4 50,8 78,6 78,9
Người chuyển giới top-1 55.1 54,7 59,0 64,0
TruthfulQA 35,1 42,7 38,6 47,7
WinoBias 1_2 58,4 56,4 61,5 60,6
WinoBias 2_2 90,0 75,4 90,2 90,3
Toxigen 56,7 50,0 58,8 64,5

Mức sử dụng và giới hạn của mô hình

Các hạn chế đã biết

Những mô hình này có một số hạn chế nhất định mà người dùng cần lưu ý:

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện sẽ ảnh hưởng đáng kể đến các khả năng của mô hình. Độ sai lệch hoặc thiếu hụt trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong các phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định lĩnh vực chuyên môn của mô hình có thể xử lý hiệu quả.
  • Bối cảnh và độ phức tạp của nhiệm vụ
    • Các LLM hoạt động hiệu quả hơn trong những nhiệm vụ có thể được lên khung bằng các câu lệnh rõ ràng và hướng dẫn. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể gây khó khăn cho bạn.
    • Hiệu suất của mô hình có thể chịu ảnh hưởng của ngữ cảnh (ngữ cảnh dài hơn thường dẫn đến kết quả tốt hơn, tối đa điểm nhất định).
  • Sự không rõ ràng và sắc thái về ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã rất phức tạp. Các LLM có thể khó nắm bắt sắc thái tinh tế, ngôn ngữ châm biếm hoặc mang tính hình tượng.
  • Mức độ chính xác thực tế
    • Các LLM tạo ra các câu trả lời dựa trên thông tin mà chúng học được từ nhưng không phải là cơ sở kiến thức. Chúng có thể tạo ra nhận định thực tế không chính xác hoặc đã lỗi thời.
  • Thông thường
    • Các LLM dựa vào các mẫu thống kê theo ngôn ngữ. Họ có thể thiếu khả năng áp dụng lý luận thông thường trong những tình huống nhất định.

Cân nhắc và rủi ro về đạo đức

Sự phát triển của các mô hình ngôn ngữ lớn (LLM) đặt ra một số mối lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thành kiến và sự công bằng
    • Các LLM được huấn luyện về dữ liệu văn bản trong thế giới thực và quy mô lớn có thể phản ánh các thành kiến văn hoá xã hội được đề cập trong tài liệu đào tạo. Các mô hình này đã được xem xét kỹ lưỡng, tiền xử lý dữ liệu đầu vào được mô tả và các đánh giá sau được báo cáo trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai lệch, gây hiểu lầm hoặc có hại.
    • Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm, hãy xem AI tạo sinh có trách nhiệm Bộ công cụ.
  • Tính minh bạch và trách nhiệm giải trình
    • Thẻ mô hình này tóm tắt thông tin chi tiết về các mô hình cấu trúc, năng lực, hạn chế và quá trình đánh giá.
    • Một mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ bằng cách giúp các nhà phát triển dễ dàng tiếp cận công nghệ LLM và nhà nghiên cứu trên hệ sinh thái AI.

Rủi ro đã phát hiện và giảm thiểu:

  • Duy trì sự sai lệch: Bạn nên liên tục theo dõi (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và kỹ thuật khám phá cách xác định sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cơ chế và nguyên tắc đối với nội dung an toàn là điều cần thiết. Các nhà phát triển nên thận trọng và triển khai các biện pháp đảm bảo an toàn về nội dung phù hợp dựa trên chính sách sản phẩm và trường hợp sử dụng ứng dụng.
  • Sử dụng sai mục đích cho các mục đích xấu: Các hạn chế về kỹ thuật, nhà phát triển và hướng dẫn cho người dùng cuối có thể giúp giảm thiểu các ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Các tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai mục đích đã cung cấp. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong điều khoản .
  • Vi phạm quyền riêng tư: Các mô hình đã được huấn luyện về dữ liệu đã lọc để xoá PII (Thông tin nhận dạng cá nhân). Chúng tôi khuyến khích nhà phát triển tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Mục đích sử dụng

Ứng dụng

Các mô hình ngôn ngữ lớn (LLM) mở có nhiều loại ứng dụng thuộc nhiều ngành và lĩnh vực khác nhau. Danh sách các trường hợp sử dụng tiềm năng sau đây không toàn diện. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về các trường hợp sử dụng có thể mà người tạo mô hình đã xem xét như một phần của mô hình đào tạo và phát triển.

  • Trao đổi thông tin và sáng tạo nội dung
    • Tạo văn bản: Các mô hình này có thể dùng để tạo văn bản mẫu quảng cáo các định dạng như thơ, kịch bản, đoạn mã, nội dung tiếp thị, bản nháp email, v.v.
    • bot trò chuyện và AI đàm thoại: Hỗ trợ giao diện trò chuyện cho dịch vụ khách hàng, trợ lý ảo hoặc các ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo bản tóm tắt ngắn gọn về tập sao lục văn bản, báo cáo hoặc bài viết nghiên cứu.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Những mô hình này có thể phân phát làm nền tảng để các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển các thuật toán và đóng góp vào sự tiến bộ của lĩnh vực này.
    • Công cụ học ngôn ngữ: Hỗ trợ việc học ngôn ngữ tương tác trải nghiệm, hỗ trợ sửa ngữ pháp hoặc cung cấp thực hành viết.
    • Khám phá kiến thức: Hỗ trợ các nhà nghiên cứu khám phá các vật thể lớn bằng cách tạo các bản tóm tắt hoặc trả lời câu hỏi về theo chủ đề.

Lợi ích

Vào thời điểm phát hành, dòng mô hình này cung cấp những phiên bản mở có hiệu suất cao việc triển khai mô hình ngôn ngữ lớn được thiết kế từ đầu cho kênh Responsible (Có trách nhiệm) Phát triển AI so với các mô hình có kích thước tương tự.

Sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này đã chứng minh là mang lại hiệu suất vượt trội so với các mô hình mở khác có quy mô tương đương lựa chọn thay thế.

Đặc biệt, các mô hình RecurrentGemma đạt được hiệu suất tương đương với Gemma nhưng nhanh hơn trong quá trình suy luận và cần ít bộ nhớ hơn, đặc biệt là chuỗi dài.