Mô hình mở của Gemma

Một dòng mô hình mở gọn nhẹ, hiện đại và tiên tiến được xây dựng từ chính quá trình nghiên cứu và công nghệ dùng để tạo ra các mô hình Gemini

Biểu trưng của các mô hình của Gemma

Chịu trách nhiệm thiết kế

Kết hợp với những biện pháp toàn diện để đảm bảo an toàn, những mô hình này góp phần đảm bảo những giải pháp AI đáng tin cậy và có trách nhiệm thông qua các tập dữ liệu được tuyển chọn và điều chỉnh kỹ lưỡng.

Biểu trưng của các mô hình của Gemma

Hiệu suất không trùng khớp về kích thước

Các mô hình Gemma đạt được kết quả đo điểm chuẩn vượt trội ở kích thước 2B và 7B, thậm chí vượt trội so với một số mô hình mở lớn hơn.

Biểu trưng của các mô hình của Gemma

Khung linh hoạt

Với Keras 3.0, tận hưởng khả năng tương thích liền mạch với JAX, TensorFlow và PyTorch, giúp bạn dễ dàng chọn và chuyển đổi khung tuỳ thuộc vào nhiệm vụ của mình.

Điểm chuẩn

Gemma thiết lập một tiêu chuẩn mới cho hiệu suất hiện đại về kích thước so với các mô hình phổ biến như Llama 2 và Mistral 7B.

5 lần bắn, hàng đầu 1

Hàm MMLU

Điểm chuẩn MMLU là bài kiểm tra đo lường bề rộng kiến thức và khả năng giải quyết vấn đề mà các mô hình ngôn ngữ lớn tiếp thu được trong quá trình huấn luyện trước.

0 mũi

HellaSwag

Tiêu chuẩn HellaSwag thách thức khả năng hiểu và áp dụng lập luận thông thường của mô hình ngôn ngữ bằng cách chọn cái kết hợp lý nhất cho câu chuyện.

0 mũi

PIQA

Điểm chuẩn PIQA kiểm tra khả năng hiểu và áp dụng kiến thức vật chất thông thường của mô hình ngôn ngữ bằng cách trả lời các câu hỏi về các tương tác vật lý hàng ngày.

0 mũi

Cổng SIQA

Điểm chuẩn SIQA đánh giá mức hiểu biết của một mô hình ngôn ngữ về tương tác xã hội và thị lực xã hội bằng cách đặt câu hỏi về hành động của người dùng và hệ quả xã hội của họ.

0 mũi

Tiếng Boolq

Điểm chuẩn BoolQ kiểm tra khả năng trả lời câu hỏi có/không của một mô hình ngôn ngữ một cách tự nhiên (được tạo trong các chế độ cài đặt không có gợi ý và không bị ràng buộc), kiểm tra khả năng của các mô hình trong việc thực hiện các nhiệm vụ suy luận ngôn ngữ tự nhiên trong thế giới thực.

chấm điểm một phần

Winogrande

Điểm chuẩn Winogrande kiểm tra khả năng của một mô hình ngôn ngữ trong việc giải quyết các tác vụ điền vào chỗ trống mơ hồ bằng các quyền chọn nhị phân, đòi hỏi phải có lý luận chung.

7 lần

Nhân viên phụ trách khách hàng (CQA)

Điểm chuẩn CQA đánh giá hiệu suất của các mô hình ngôn ngữ trong phần trả lời câu hỏi trắc nghiệm, đòi hỏi các loại kiến thức thông thường khác nhau.

OBQA

Điểm chuẩn OBQA đánh giá khả năng trả lời câu hỏi nâng cao của một mô hình ngôn ngữ nhờ khả năng lập luận nhiều bước, kiến thức thông thường và mức độ hiểu văn bản đa dạng thức, được lập mô hình sau các bài kiểm tra sách mở.

ARC-e

Điểm chuẩn ARC-e kiểm tra kỹ năng trả lời câu hỏi nâng cao của một mô hình ngôn ngữ thông qua các câu hỏi khoa học trắc nghiệm và cấp lớp chính thống.

ARC-c

Điểm chuẩn ARC-c là một tập hợp con tập trung hơn của tập dữ liệu ARC-e, chỉ chứa các câu hỏi được trả lời sai bởi các thuật toán chung (cơ sở truy xuất và từ cùng xuất hiện).

5 lần

TriviaQA

Bài kiểm tra điểm chuẩn TriviaQA kiểm tra kỹ năng đọc hiểu với bộ ba câu hỏi-câu trả lời-bằng chứng.

chuyền@1

HumanEval

Điểm chuẩn HumanEval kiểm tra khả năng tạo mã của mô hình ngôn ngữ bằng cách đánh giá xem các giải pháp của mô hình đó có vượt qua được bài kiểm thử đơn vị chức năng cho các vấn đề lập trình hay không.

3 lần

MBPP

Điểm chuẩn MBPP kiểm tra khả năng giải quyết các vấn đề cơ bản về lập trình Python của một mô hình ngôn ngữ, tập trung vào các khái niệm lập trình cơ bản và việc sử dụng thư viện tiêu chuẩn.

maj@1

GSM8K

Điểm chuẩn GSM8K kiểm tra khả năng của một mô hình ngôn ngữ để giải những bài toán cấp lớp thường yêu cầu nhiều bước lập luận.

4 lần

MATH

Điểm chuẩn MATH đánh giá khả năng giải các bài toán đố phức tạp của một mô hình ngôn ngữ, đòi hỏi khả năng lập luận, giải quyết vấn đề nhiều bước và sự hiểu biết về các khái niệm toán học.

AGIEval

Điểm chuẩn AGIEval kiểm tra trí thông minh tổng quát của một mô hình ngôn ngữ bằng cách sử dụng các câu hỏi bắt nguồn từ các bài kiểm tra thực tế được thiết kế để đánh giá khả năng trí tuệ của con người (kỳ thi tuyển sinh đại học, kỳ thi luật, v.v.).

BBH (BBH)

Điểm chuẩn BBH (BIG-Bench Hard) tập trung vào các nhiệm vụ được cho là nằm ngoài khả năng của các mô hình ngôn ngữ hiện tại, kiểm tra giới hạn của chúng trên nhiều miền lý luận và hiểu biết.

100%

75%

50%

25%

0%

100%

75%

50%

25%

0%

Gemma

7 tỷ

64,3

Gemma

2b

42,3

Mistral

7 tỷ

62,5

LLAMA-2

13b

54,8

LLAMA-2

7 tỷ

45,3

Gemma

7 tỷ

81,2

Gemma

2b

71,4

Mistral

7 tỷ

81

LLAMA-2

13b

80,7

LLAMA-2

7 tỷ

77,2

Gemma

7 tỷ

81,2

Gemma

2b

77,3

Mistral

7 tỷ

82,2

LLAMA-2

13b

80,5

LLAMA-2

7 tỷ

78,8

Gemma

7 tỷ

51,8

Gemma

2b

49,7

Mistral

7 tỷ

47*

LLAMA-2

13b

50,3

LLAMA-2

7 tỷ

48,3

Gemma

7 tỷ

83,2

Gemma

2b

69,42

Mistral

7 tỷ

83,2*

LLAMA-2

13b

81,7

LLAMA-2

7 tỷ

77,4

Gemma

7 tỷ

72,3

Gemma

2b

65,4

Mistral

7 tỷ

74,2

LLAMA-2

13b

72,8

LLAMA-2

7 tỷ

69,2

Gemma

7 tỷ

71,3

Gemma

2b

65,3

Mistral

7 tỷ

66,3*

LLAMA-2

13b

67,3

LLAMA-2

7 tỷ

57,8

Gemma

7 tỷ

52,8

Gemma

2b

47,8

Mistral

7 tỷ

52,2

LLAMA-2

13b

57

LLAMA-2

7 tỷ

58,6

Gemma

7 tỷ

81,5

Gemma

2b

73,2

Mistral

7 tỷ

80,5

LLAMA-2

13b

77,3

LLAMA-2

7 tỷ

75,2

Gemma

7 tỷ

53,2

Gemma

2b

42,06

Mistral

7 tỷ

54,9

LLAMA-2

13b

49,4

LLAMA-2

7 tỷ

45,9

Gemma

7 tỷ

63,4

Gemma

2b

53,2

Mistral

7 tỷ

62,5

LLAMA-2

13b

79,6

LLAMA-2

7 tỷ

72,1

Gemma

7 tỷ

32,3

Gemma

2b

22

Mistral

7 tỷ

26,2

LLAMA-2

13b

18,3

LLAMA-2

7 tỷ

12,8

Gemma

7 tỷ

44,4

Gemma

2b

29,2

Mistral

7 tỷ

40,2*

LLAMA-2

13b

30,6

LLAMA-2

7 tỷ

20,8

Gemma

7 tỷ

46,4

Gemma

2b

17,7

Mistral

7 tỷ

35,4*

LLAMA-2

13b

28,7

LLAMA-2

7 tỷ

14,6

Gemma

7 tỷ

24,3

Gemma

2b

11,8

Mistral

7 tỷ

12,7

LLAMA-2

13b

3,9

LLAMA-2

7 tỷ

2.5

Gemma

7 tỷ

41,7

Gemma

2b

24,2

Mistral

7 tỷ

41,2*

LLAMA-2

13b

39,1

LLAMA-2

7 tỷ

29,3

Gemma

7 tỷ

55.1

Gemma

2b

35,2

Mistral

7 tỷ

56,1*

LLAMA-2

13b

39,4

LLAMA-2

7 tỷ

32,6

*Xem báo cáo kỹ thuật để biết thông tin chi tiết về hiệu suất với các phương pháp khác

Phát triển AI có trách nhiệm

Trách nhiệm từ khâu thiết kế

Được huấn luyện trước dựa trên dữ liệu được tuyển chọn kỹ lưỡng và điều chỉnh để đảm bảo tính an toàn, giúp hỗ trợ phát triển AI một cách an toàn và có trách nhiệm dựa trên các mô hình của Gemma.

Đánh giá mạnh mẽ và minh bạch

Quy trình đánh giá toàn diện và báo cáo minh bạch giúp hé lộ các hạn chế của mô hình để áp dụng một cách tiếp cận có trách nhiệm cho từng trường hợp sử dụng.

Hỗ trợ Phát triển có trách nhiệm

Bộ công cụ AI tạo sinh có trách nhiệm hỗ trợ nhà phát triển thiết kế và áp dụng những phương pháp hay nhất về AI có trách nhiệm.

Biểu tượng Google Cloud

Được tối ưu hoá cho Google Cloud

Với các mô hình của Gemma trên Google Cloud, bạn có thể tuỳ chỉnh sâu mô hình theo nhu cầu cụ thể của mình bằng các công cụ được quản lý hoàn toàn của Vertex AI hoặc lựa chọn tự quản lý của GKE và triển khai mô hình này trên cơ sở hạ tầng được tối ưu hoá bằng AI một cách linh hoạt và tiết kiệm chi phí.

Đẩy nhanh quá trình nghiên cứu học thuật nhờ các khoản tín dụng của Google Cloud

Chương trình Nghiên cứu học thuật gần đây đã kết thúc thời gian đăng ký và cấp tín dụng Google Cloud để hỗ trợ các nhà nghiên cứu mở rộng ranh giới của khám phá khoa học bằng cách sử dụng mô hình Gemma. Chúng tôi rất vui mừng khi thấy sáng kiến này mang lại kết quả đột phá cho nghiên cứu này.

Hãy chú ý theo dõi các cơ hội trong tương lai để nâng tầm nghiên cứu của bạn với Google Cloud.

Tham gia cộng đồng

Kết nối, khám phá và chia sẻ kiến thức với mọi người trong cộng đồng mô hình học máy.

Cạnh tranh để xây dựng trợ lý AI tốt nhất cho các kỹ sư công nghệ học máy

Kaggle đang tổ chức một cuộc thi mang tính thách thức khi người tham gia sử dụng các mô hình của Gemma để xây dựng các trợ lý AI tốt nhất cho các nhiệm vụ kỹ thuật học máy. Người chiến thắng sẽ được công bố tại Google I/O.

Tham gia cuộc thi
Cúp thi đấu Kaggle