Thẻ mô hình Gemma

Trang mô hình: Gemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về dữ liệu đầu vào và đầu ra.

Nội dung mô tả

Gemma là một dòng mô hình mở, hiện đại và nhẹ của Google, được xây dựng dựa trên chính quá trình nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini. Đây là các mô hình ngôn ngữ lớn chuyển văn bản thành văn bản, chỉ dành cho bộ giải mã, có sẵn bằng tiếng Anh, với trọng số mở, biến thể được huấn luyện trước và biến thể được điều chỉnh theo lệnh. Các mô hình Gemma phù hợp với nhiều nhiệm vụ tạo văn bản, bao gồm trả lời câu hỏi, tóm tắt và lập luận. Quy mô tương đối nhỏ giúp bạn có thể triển khai mô hình trong môi trường có tài nguyên hạn chế, chẳng hạn như máy tính xách tay, máy tính hoặc cơ sở hạ tầng đám mây của riêng bạn, cho phép mọi người tiếp cận các mô hình AI hiện đại và giúp thúc đẩy sự đổi mới cho mọi người.

Đầu vào và đầu ra

  • Đầu vào: Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần tóm tắt.
  • Kết quả: Văn bản bằng tiếng Anh được tạo để phản hồi thông tin được nhập, chẳng hạn như câu trả lời cho một câu hỏi hoặc phần tóm tắt tài liệu.

Trích dẫn

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

Dữ liệu mô hình

Dữ liệu dùng để huấn luyện mô hình và cách dữ liệu được xử lý.

Tập dữ liệu huấn luyện

Các mô hình này được huấn luyện trên tập dữ liệu văn bản bao gồm nhiều nguồn, tổng cộng là 6 nghìn tỷ mã thông báo. Dưới đây là các thành phần chính:

  • Tài liệu trên web: Một bộ sưu tập văn bản web đa dạng đảm bảo mô hình này tiếp cận được nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Chủ yếu là nội dung bằng tiếng Anh.
  • Mã: Việc hiển thị mô hình để lập trình giúp mô hình học cú pháp và mẫu của các ngôn ngữ lập trình, qua đó cải thiện khả năng tạo mã hoặc hiểu các câu hỏi liên quan đến mã.
  • Toán học: Việc huấn luyện văn bản toán học giúp mô hình học cách lập luận logic, biểu diễn bằng biểu tượng và giải quyết các truy vấn toán học.

Việc kết hợp các nguồn dữ liệu đa dạng này đóng vai trò quan trọng trong việc huấn luyện một mô hình ngôn ngữ mạnh mẽ, có thể xử lý nhiều tác vụ và định dạng văn bản.

Xử lý trước dữ liệu

Dưới đây là các phương pháp lọc và làm sạch dữ liệu chính áp dụng cho dữ liệu huấn luyện:

  • Lọc nội dung xâm hại tình dục trẻ em: Chế độ lọc nội dung xâm hại tình dục trẻ em (CSAM) nghiêm ngặt được áp dụng ở nhiều giai đoạn trong quá trình chuẩn bị dữ liệu để đảm bảo loại bỏ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình huấn luyện trước của Gemma trở nên an toàn và đáng tin cậy, các kỹ thuật tự động được dùng để lọc ra một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
  • Các phương thức bổ sung: Lọc dựa trên chất lượng và mức độ an toàn của nội dung theo chính sách của chúng tôi.

Thông tin triển khai

Thông tin chi tiết về bộ phận bên trong của mô hình.

Phần cứng

Gemma được đào tạo bằng phần cứng thế hệ mới nhất của Bộ xử lý cảm biến (TPU) (TPUv5e).

Việc huấn luyện các mô hình ngôn ngữ lớn đòi hỏi sức mạnh tính toán đáng kể. TPU, được thiết kế riêng cho các thao tác ma trận phổ biến trong công nghệ học máy, mang lại một số ưu điểm trong miền này:

  • Hiệu suất: Các TPU được thiết kế đặc biệt để xử lý các phép tính khổng lồ liên quan đến việc huấn luyện các LLM. Chúng có thể tăng tốc độ huấn luyện đáng kể so với CPU.
  • Bộ nhớ: TPU thường đi kèm với dung lượng lớn bộ nhớ băng thông cao, cho phép xử lý các mô hình lớn cũng như kích thước lô trong quá trình huấn luyện. Điều này có thể mang đến chất lượng mô hình tốt hơn.
  • Khả năng mở rộng: Nhóm TPU (các cụm TPU lớn) cung cấp một giải pháp có thể mở rộng để xử lý độ phức tạp ngày càng tăng của các mô hình nền tảng lớn. Bạn có thể phân phối nội dung huấn luyện trên nhiều thiết bị TPU để xử lý nhanh hơn và hiệu quả hơn.
  • Hiệu quả về mặt chi phí: Trong nhiều trường hợp, TPU có thể cung cấp một giải pháp tiết kiệm chi phí hơn để đào tạo các mô hình lớn so với cơ sở hạ tầng dựa trên CPU, đặc biệt là khi xem xét thời gian và tài nguyên tiết kiệm được nhờ đào tạo nhanh hơn.
  • Những ưu điểm này phù hợp với cam kết của Google về việc hoạt động bền vững.

Phần mềm

Chúng tôi đã đào tạo bằng JAXLộ trình học máy.

JAX cho phép các nhà nghiên cứu tận dụng thế hệ phần cứng mới nhất, bao gồm cả TPU, để huấn luyện các mô hình lớn nhanh hơn và hiệu quả hơn.

Lộ trình học máy là nỗ lực mới nhất của Google nhằm xây dựng các hệ thống thông minh nhân tạo có khả năng tổng quát hoá cho nhiều nhiệm vụ. Điều này đặc biệt phù hợp với các mô hình nền tảng, bao gồm cả các mô hình ngôn ngữ lớn như các mô hình này.

Đồng thời, Lộ trình JAX và ML được sử dụng như mô tả trong bài viết về dòng mô hình Gemini; "mô hình lập trình "đơn điều khiển" của Jax và Lộ trình học máy cho phép một quy trình Python duy nhất để sắp xếp toàn bộ quá trình huấn luyện, đơn giản hoá đáng kể quy trình phát triển."

Đánh giá

Chỉ số và kết quả đánh giá mô hình.

Kết quả đo điểm chuẩn

Các mô hình này được đánh giá dựa trên một tập hợp lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc tạo văn bản:

Benchmark (Điểm chuẩn) Chỉ số Gemma PT 2B Gemma PT 7B
Hàm MMLU 5 lần bắn, hàng đầu 1 42,3 64,3
HellaSwag 0 mũi 71,4 81,2
PIQA 0 mũi 77,3 81,2
SocialIQA 0 mũi 49,7 51,8
BoolQ 0 mũi 69,4 83,2
WinoGrande điểm số một phần 65,4 72,3
CommonsenseQA 7 lần 65,3 71,3
OpenBookQA 47,8 52,8
ARC-e 73,2 81,5
ARC-c 42,1 53,2
TriviaQA 5 lần 53,2 63,4
Câu hỏi tự nhiên 5 lần 12,5 23
HumanEval chuyền@1 22 32,3
MBPP 3 lần 29,2 44,4
GSM8K maj@1 17,7 46,4
MATH 4 lần 11,8 24,3
AGIEval 24,2 41,7
Ghế băng siêu lớn 35,2 55.1
Trung bình 44,9 56,4

Đạo đức và an toàn

Phương pháp và kết quả đánh giá đạo đức và an toàn.

Phương pháp đánh giá

Các phương pháp đánh giá của chúng tôi bao gồm đánh giá có cấu trúc và kiểm thử kết hợp nội bộ đối với các chính sách nội dung có liên quan. Nhiều nhóm khác nhau đã tiến hành quy trình hợp tác đỏ, mỗi nhóm có những mục tiêu và chỉ số đánh giá thủ công khác nhau. Những mô hình này được đánh giá theo một số danh mục liên quan đến đạo đức và sự an toàn, bao gồm:

  • Sự an toàn của nội dung được chuyển từ văn bản thành văn bản: Nhân viên đánh giá đối với các câu lệnh về chính sách an toàn bao gồm cả hành vi bóc lột và xâm hại tình dục trẻ em, quấy rối, bạo lực và đẫm máu, cũng như lời nói hận thù.
  • Tác hại của việc thể hiện văn bản dưới dạng văn bản: Đo điểm chuẩn dựa trên các tập dữ liệu học thuật có liên quan như WinoBiasTập dữ liệu BBQ.
  • Ghi nhớ: Tự động đánh giá việc ghi nhớ dữ liệu huấn luyện, bao gồm cả rủi ro lộ thông tin nhận dạng cá nhân.
  • Tác hại trên quy mô lớn: Các thử nghiệm để phát hiện "khả năng nguy hiểm", chẳng hạn như rủi ro về hoá học, sinh học, phóng xạ và hạt nhân (CBRN).

Kết quả đánh giá

Kết quả đánh giá về đạo đức và sự an toàn đều nằm trong ngưỡng chấp nhận được để đáp ứng chính sách nội bộ đối với các danh mục như sự an toàn cho trẻ em, sự an toàn cho nội dung, thiệt hại về mặt hình ảnh, nội dung ghi nhớ, hành vi gây hại trên quy mô lớn. Ngoài các đánh giá nội bộ hiệu quả, kết quả của các điểm chuẩn an toàn phổ biến như BBQ, BOLD, Winogender, Winobias, RealToxicity và TruthfulQA còn được hiển thị tại đây.

Gemma 1.0

Benchmark (Điểm chuẩn) Chỉ số Gemma 1.0 CNTT 2B Gemma 1.0 CNTT 7B
RealToxicity trung bình 6,86 euro
Hàm BOLD 45,57 49,08
Cặp con quạ top-1 45,82 51,33
BBQ Không rõ ràng 1 lần chụp, hàng đầu 1 62,58 92,54
BBQ Disambig top-1 54,62 euro
Người giới tính top-1 51,25 54,17
TruthfulQA 44,84 31,81
Winobias 1_2 56,12 59,09
Winobias 2_2 91,10 92,23
Độc hại 29,77 euro

Gemma 1.1

Benchmark (Điểm chuẩn) Chỉ số Gemma 1.1 CNTT 2B Gemma 1.1 CNTT 7B
RealToxicity trung bình 7,03 8,04
Hàm BOLD 47,76
Cặp con quạ top-1 euro 49,67
BBQ Không rõ ràng 1 lần chụp, hàng đầu 1 euro 86,06
BBQ Disambig top-1 euro 85,08
Người giới tính top-1 50,14 57,64
TruthfulQA 44,24 45,34
Winobias 1_2 euro 59,22
Winobias 2_2 89,46 89,2
Độc hại 29,64 38,75

Cách sử dụng và giới hạn

Các mô hình này có một số hạn chế nhất định mà người dùng cần lưu ý.

Mục đích sử dụng

Mô hình ngôn ngữ lớn mở (LLM) có nhiều ứng dụng trong nhiều ngành và miền. Danh sách các trường hợp có thể sử dụng sau đây chưa đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo bối cảnh về những trường hợp sử dụng có thể xảy ra mà người tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

  • Giao tiếp và sáng tạo nội dung
    • Tạo văn bản: Các mô hình này có thể được dùng để tạo các định dạng văn bản sáng tạo như thơ, tập lệnh, đoạn mã, nội dung tiếp thị và các bản nháp email.
    • Bot trò chuyện và AI đàm thoại: Hỗ trợ các giao diện trò chuyện dành cho dịch vụ khách hàng, trợ lý ảo hoặc ứng dụng tương tác.
    • Tóm tắt văn bản: Tạo ra các bản tóm tắt ngắn gọn của khối văn bản, tài liệu nghiên cứu hoặc báo cáo.
  • Nghiên cứu và giáo dục
    • Nghiên cứu về Xử lý ngôn ngữ tự nhiên (NLP): Những mô hình này có thể là nền tảng giúp các nhà nghiên cứu thử nghiệm các kỹ thuật NLP, phát triển các thuật toán và đóng góp vào sự phát triển của ngành này.
    • Công cụ học ngôn ngữ: Hỗ trợ trải nghiệm học ngôn ngữ mang tính tương tác, hỗ trợ sửa lỗi ngữ pháp hoặc luyện viết.
    • Khám phá kiến thức: Hỗ trợ nhà nghiên cứu khám phá lượng lớn văn bản bằng cách tạo nội dung tóm tắt hoặc trả lời câu hỏi về các chủ đề cụ thể.

Các điểm hạn chế

  • Dữ liệu huấn luyện
    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến các chức năng của mô hình. Độ sai lệch hoặc khoảng trống trong dữ liệu huấn luyện có thể dẫn đến các hạn chế đối với phản hồi của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện xác định các lĩnh vực chủ đề mà mô hình có thể xử lý hiệu quả.
  • Ngữ cảnh và mức độ phức tạp của tác vụ
    • Các LLM hiệu quả hơn trong các nhiệm vụ có thể được đóng khung với lời nhắc và hướng dẫn rõ ràng. Các nhiệm vụ mở hoặc có độ phức tạp cao có thể khó khăn.
    • Hiệu suất của một mô hình có thể chịu ảnh hưởng của lượng ngữ cảnh được cung cấp (ngữ cảnh dài hơn thường mang lại kết quả tốt hơn, cho đến một thời điểm nhất định).
  • Sự không rõ ràng và sắc thái về ngôn ngữ
    • Ngôn ngữ tự nhiên vốn đã phức tạp. Các LLM có thể gặp khó khăn trong việc nắm bắt các sắc thái tinh tế, ngôn ngữ châm biếm hoặc tượng trưng.
  • Độ chính xác thực tế
    • Các LLM tạo phản hồi dựa trên thông tin học được từ tập dữ liệu đào tạo, nhưng không phải là cơ sở kiến thức. Những nội dung này có thể tạo ra các tuyên bố thực tế không chính xác hoặc đã lỗi thời.
  • Common Sense
    • Các LLM dựa trên các mẫu thống kê bằng ngôn ngữ. Có thể các em thiếu khả năng vận dụng lập luận thông thường trong một số tình huống.

Cân nhắc và rủi ro về mặt đạo đức

Sự phát triển các mô hình ngôn ngữ lớn (LLM) làm nảy sinh một số lo ngại về đạo đức. Khi tạo mô hình mở, chúng tôi đã xem xét cẩn thận những điều sau:

  • Thiên vị và sự công bằng
    • Các LLM được huấn luyện dựa trên dữ liệu văn bản thực tế ở quy mô lớn có thể phản ánh các thành kiến về văn hoá xã hội được lồng ghép trong tài liệu đào tạo. Những mô hình này trải qua quá trình xem xét kỹ lưỡng, xem xét kỹ lưỡng trước khi xử lý dữ liệu đầu vào (như mô tả) và đánh giá sau (sau) được báo cáo trong thẻ này.
  • Thông tin sai lệch và hành vi sử dụng sai mục đích
    • Các LLM có thể bị sử dụng sai mục đích để tạo văn bản sai sự thật, gây hiểu lầm hoặc gây hại.
    • Chúng tôi đưa ra các nguyên tắc về việc sử dụng mô hình này một cách có trách nhiệm, vui lòng xem Bộ công cụ về AI tạo sinh có trách nhiệm.
  • Tính minh bạch và trách nhiệm giải trình:
    • Thẻ mô hình này tóm tắt thông tin chi tiết về cấu trúc, khả năng, giới hạn và quy trình đánh giá của mô hình.
    • Mô hình mở được phát triển một cách có trách nhiệm mang đến cơ hội chia sẻ sự đổi mới bằng cách giúp các nhà phát triển và nhà nghiên cứu trên hệ sinh thái AI dễ dàng tiếp cận công nghệ LLM.

Rủi ro đã xác định và biện pháp giảm thiểu:

  • Duy trì độ thiên lệch: Bạn nên theo dõi liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá các kỹ thuật loại bỏ sai lệch trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Tạo nội dung gây hại: Cơ chế và nguyên tắc đảm bảo an toàn cho nội dung là cần thiết. Nhà phát triển nên thận trọng và triển khai các biện pháp đảm bảo an toàn phù hợp cho nội dung, dựa trên chính sách sản phẩm cụ thể và các trường hợp sử dụng ứng dụng.
  • Sử dụng sai mục đích: Các hạn chế về kỹ thuật, hướng dẫn dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu ứng dụng độc hại của các mô hình ngôn ngữ lớn (LLM). Chúng tôi cung cấp tài nguyên hướng dẫn và cơ chế báo cáo để người dùng gắn cờ hành vi lạm dụng. Những trường hợp sử dụng mô hình Gemma bị cấm được nêu trong Chính sách về các hành vi bị cấm của Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện về dữ liệu được lọc để xoá PII (Thông tin nhận dạng cá nhân). Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp cách triển khai mô hình ngôn ngữ lớn mở và hiệu suất cao, được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự.

Nhờ sử dụng các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, các mô hình này cho thấy hiệu suất vượt trội so với các mô hình mở khác có kích thước tương đương.