Thẻ mô hình EmbeddingGemma

Trang mô hình: EmbeddingGemma

Tài nguyên và tài liệu kỹ thuật:

Điều khoản sử dụng: Điều khoản

Tác giả: Google DeepMind

Thông tin mẫu

Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về đầu vào và đầu ra.

Mô tả

EmbeddingGemma là một mô hình nhúng mở có 300 triệu tham số, hiện đại so với quy mô của nó, do Google phát triển, được xây dựng dựa trên Gemma 3 (với quá trình khởi tạo T5Gemma) và cùng nghiên cứu cũng như công nghệ được dùng để tạo các mô hình Gemini. EmbeddingGemma tạo ra các biểu diễn vectơ của văn bản, rất phù hợp cho các tác vụ tìm kiếm và truy xuất, bao gồm cả phân loại, phân cụm và tìm kiếm mức độ tương đồng về ngữ nghĩa. Mô hình này được huấn luyện bằng dữ liệu của hơn 100 ngôn ngữ nói.

Kích thước nhỏ và khả năng tập trung vào thiết bị giúp bạn có thể triển khai trong các môi trường có tài nguyên hạn chế như điện thoại di động, máy tính xách tay hoặc máy tính, giúp mọi người có thể tiếp cận các mô hình AI tiên tiến và thúc đẩy sự đổi mới.

Để biết thêm thông tin chi tiết về kỹ thuật, hãy tham khảo bài viết của chúng tôi: EmbeddingGemma: Powerful and Lightweight Text Representations (EmbeddingGemma: Biểu diễn văn bản mạnh mẽ và gọn nhẹ).

Đầu vào và đầu ra

  • Đầu vào:

    • Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần được nhúng
    • Độ dài tối đa của ngữ cảnh đầu vào là 2K
  • Kết quả:

    • Biểu diễn vectơ số của dữ liệu văn bản đầu vào
    • Kích thước của chiều nhúng đầu ra là 768, với các lựa chọn nhỏ hơn (512, 256 hoặc 128) thông qua Matryoshka Representation Learning (MRL). MRL cho phép người dùng cắt bớt kết quả nhúng có kích thước 768 thành kích thước mong muốn, sau đó chuẩn hoá lại để có được bản trình bày hiệu quả và chính xác.

Trích dẫn

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

Dữ liệu mô hình

Tập dữ liệu huấn luyện

Mô hình này được huấn luyện trên một tập dữ liệu văn bản bao gồm nhiều nguồn với tổng cộng khoảng 320 tỷ mã thông báo. Sau đây là các thành phần chính:

  • Tài liệu trên web: Một bộ sưu tập đa dạng gồm văn bản trên web giúp đảm bảo mô hình được tiếp xúc với nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Tập dữ liệu huấn luyện bao gồm nội dung bằng hơn 100 ngôn ngữ.
  • Mã và tài liệu kỹ thuật: Việc cho mô hình tiếp xúc với mã và tài liệu kỹ thuật giúp mô hình học được cấu trúc và mẫu của các ngôn ngữ lập trình cũng như nội dung khoa học chuyên biệt, từ đó cải thiện khả năng hiểu mã và các câu hỏi kỹ thuật của mô hình.
  • Dữ liệu tổng hợp và dữ liệu dành riêng cho từng nhiệm vụ: Dữ liệu huấn luyện tổng hợp giúp dạy cho mô hình các kỹ năng cụ thể. Điều này bao gồm dữ liệu được tuyển chọn cho các tác vụ như truy xuất thông tin, phân loại và phân tích quan điểm, giúp tinh chỉnh hiệu suất cho các ứng dụng nhúng phổ biến.

Việc kết hợp những nguồn dữ liệu đa dạng này là yếu tố then chốt để huấn luyện một mô hình nhúng đa ngôn ngữ mạnh mẽ, có thể xử lý nhiều loại nhiệm vụ và định dạng dữ liệu khác nhau.

Xử lý trước dữ liệu

Sau đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu huấn luyện:

  • Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi áp dụng quy trình lọc nội dung xâm hại tình dục trẻ em (CSAM) nghiêm ngặt ở nhiều giai đoạn trong quy trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
  • Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình được huấn luyện trước Gemma an toàn và đáng tin cậy, chúng tôi đã sử dụng các kỹ thuật tự động để lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
  • Các phương pháp khác: Lọc dựa trên chất lượng và độ an toàn của nội dung theo các chính sách của chúng tôi.

Phát triển mô hình

Phần cứng

EmbeddingGemma được huấn luyện bằng phần cứng Đơn vị xử lý tensor (TPU) thế hệ mới nhất (TPUv5e). Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.

Phần mềm

Quá trình huấn luyện được thực hiện bằng JAXML Pathways. Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.

Đánh giá

Kết quả đo điểm chuẩn

Mô hình này được đánh giá dựa trên một bộ sưu tập lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc hiểu văn bản.

Điểm kiểm tra có độ chính xác cao

MTEB (Đa ngôn ngữ, phiên bản 2)
Tính chất nhiều chiều Trung bình (Nhiệm vụ) Mean (TaskType)
768d 61,15 54,31
512d 60,71 53,89
256 ngày 59,68 53,01
128 ngày 58,23 51,77
MTEB (Tiếng Anh, phiên bản 2)
Tính chất nhiều chiều Trung bình (Nhiệm vụ) Mean (TaskType)
768d 69,67 65.11
512d 69,18 64,59
256 ngày 68,37 64,02
128 ngày 66,66 62,70
MTEB (Code, v1)
Tính chất nhiều chiều Trung bình (Nhiệm vụ) Mean (TaskType)
768d 68,76 68,76
512d 68,48 68,48
256 ngày 66,74 66,74
128 ngày 62,96 62,96

Các điểm kiểm tra QAT

MTEB (Đa ngôn ngữ, phiên bản 2)
Cấu hình Quant (tính chất đa chiều) Trung bình (Nhiệm vụ) Mean (TaskType)
Độ chính xác hỗn hợp* (768 ngày) 60,69 53,82
Q8_0 (768d) 60,93 53,95
Q4_0 (768d) 60,62 53,61
MTEB (Tiếng Anh, phiên bản 2)
Cấu hình Quant (tính chất đa chiều) Trung bình (Nhiệm vụ) Mean (TaskType)
Độ chính xác hỗn hợp* (768 ngày) 69,32 64,82
Q8_0 (768d) 69,49 64,84
Q4_0 (768d) 69,31 64,65
MTEB (Code, v1)
Cấu hình Quant (tính chất đa chiều) Trung bình (Nhiệm vụ) Mean (TaskType)
Độ chính xác hỗn hợp* (768 ngày) 68,03 68,03
Q8_0 (768d) 68,70 68,70
Q4_0 (768d) 67,99 67,99

* Độ chính xác hỗn hợp đề cập đến việc định lượng theo từng kênh bằng int4 cho các lớp nhúng, truyền thẳng và chiếu, đồng thời int8 cho sự chú ý (e4_a8_f4_p4).

Hướng dẫn về câu lệnh

EmbeddingGemma có thể tạo các vectơ nhúng được tối ưu hoá cho nhiều trường hợp sử dụng (chẳng hạn như truy xuất tài liệu, trả lời câu hỏi và xác minh thông tin) hoặc cho các loại dữ liệu đầu vào cụ thể (cụ thể là một cụm từ tìm kiếm hoặc một tài liệu) bằng cách sử dụng các câu lệnh được thêm vào trước chuỗi đầu vào.

Câu lệnh truy vấn tuân theo biểu mẫu task: {task description} | query:, trong đó nội dung mô tả nhiệm vụ thay đổi theo trường hợp sử dụng, với nội dung mô tả nhiệm vụ mặc định là search result. Câu lệnh theo kiểu tài liệu tuân theo dạng title: {title | "none"} | text:, trong đó tiêu đề là none (mặc định) hoặc tiêu đề thực tế của tài liệu. Xin lưu ý rằng việc cung cấp tiêu đề (nếu có) sẽ cải thiện hiệu suất của mô hình đối với câu lệnh về tài liệu nhưng có thể yêu cầu định dạng thủ công.

Sử dụng các câu lệnh sau đây dựa trên trường hợp sử dụng và loại dữ liệu đầu vào của bạn. Những lựa chọn này có thể đã có trong cấu hình EmbeddingGemma trong khung mô hình mà bạn chọn.


Trường hợp sử dụng (liệt kê loại tác vụ)

Nội dung mô tả

Câu lệnh đề xuất

Truy xuất (Truy vấn)

Được dùng để tạo các vectơ nhúng được tối ưu hoá cho việc tìm kiếm tài liệu hoặc truy xuất thông tin

nhiệm vụ: kết quả tìm kiếm | cụm từ tìm kiếm: {content}

Truy xuất (Tài liệu)

title: {title | "none"} | text: {content}

Trả lời câu hỏi

nhiệm vụ: trả lời câu hỏi | truy vấn: {content}

Xác minh tính xác thực

nhiệm vụ: kiểm chứng thông tin | câu hỏi: {content}

Phân loại

Được dùng để tạo các vectơ nhúng được tối ưu hoá nhằm phân loại văn bản theo nhãn đặt sẵn

task: classification | query: {content}

Phân cụm

Được dùng để tạo các mục nhúng được tối ưu hoá để phân cụm văn bản dựa trên sự tương đồng

task: clustering | query: {content}

Tính tương đồng về mặt ngữ nghĩa

Được dùng để tạo các vectơ nhúng được tối ưu hoá nhằm đánh giá mức độ tương đồng của văn bản. Đây không phải là trường hợp sử dụng truy xuất.

task: sentence similarity | query: {content}

Truy xuất mã

Được dùng để truy xuất một khối mã dựa trên truy vấn bằng ngôn ngữ tự nhiên, chẳng hạn như sort an array (sắp xếp một mảng) hoặc reverse a linked list (đảo ngược danh sách được liên kết). Các mục nhúng của khối mã được tính bằng retrieval_document.

task: code retrieval | query: {content}

Mức sử dụng và giới hạn

Các mô hình này có một số hạn chế mà người dùng cần biết.

Mục đích sử dụng

Các mô hình nhúng mở có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách sau đây về các trường hợp sử dụng tiềm năng chưa phải là danh sách đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về những trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.

  • Tính tương đồng về mặt ngữ nghĩa: Các vectơ nhúng được tối ưu hoá để đánh giá mức độ tương đồng của văn bản, chẳng hạn như hệ thống đề xuất và tính năng phát hiện nội dung trùng lặp
  • Phân loại: Các vectơ nhúng được tối ưu hoá để phân loại văn bản theo nhãn đặt sẵn, chẳng hạn như phân tích quan điểm và phát hiện nội dung rác
  • Phân cụm: Các mục nhúng được tối ưu hoá để phân cụm văn bản dựa trên sự tương đồng, chẳng hạn như tổ chức tài liệu, nghiên cứu thị trường và phát hiện điểm bất thường
  • Truy xuất

    • Tài liệu: Các vectơ nhúng được tối ưu hoá cho tính năng tìm kiếm tài liệu, chẳng hạn như lập chỉ mục các bài viết, sách hoặc trang web để tìm kiếm
    • Truy vấn: Các vectơ được tối ưu hoá cho các truy vấn tìm kiếm chung, chẳng hạn như tìm kiếm tuỳ chỉnh
    • Truy vấn mã: Các vectơ nhúng được tối ưu hoá để truy xuất các khối mã dựa trên truy vấn bằng ngôn ngữ tự nhiên, chẳng hạn như đề xuất và tìm kiếm mã
  • Trả lời câu hỏi: Các vectơ nhúng cho câu hỏi trong hệ thống trả lời câu hỏi, được tối ưu hoá để tìm tài liệu trả lời câu hỏi, chẳng hạn như hộp trò chuyện.

  • Xác minh tính xác thực: Các câu lệnh cần được xác minh, được tối ưu hoá để truy xuất những tài liệu có bằng chứng ủng hộ hoặc bác bỏ câu lệnh, chẳng hạn như hệ thống tự động xác minh tính xác thực.

Các điểm hạn chế

  • Dữ liệu huấn luyện

    • Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thiên kiến hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong câu trả lời của mô hình.
    • Phạm vi của tập dữ liệu huấn luyện sẽ xác định các lĩnh vực mà mô hình có thể xử lý một cách hiệu quả.
  • Sự mơ hồ và sắc thái của ngôn ngữ

    • Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. Các mô hình có thể gặp khó khăn trong việc nắm bắt những sắc thái tinh tế, sự mỉa mai hoặc ngôn ngữ hình tượng.

Những điều cần cân nhắc và rủi ro về đạo đức

Các rủi ro đã xác định và biện pháp giảm thiểu:

  • Duy trì sự thiên vị: Bạn nên thực hiện quy trình giám sát liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá các kỹ thuật giảm thiên vị trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
  • Sử dụng sai mục đích cho mục đích xấu: Các giới hạn về kỹ thuật cũng như thông tin giáo dục dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng nhúng độc hại. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai. Các trường hợp bị cấm sử dụng mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
  • Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để loại bỏ một số thông tin cá nhân và dữ liệu nhạy cảm khác. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.

Lợi ích

Tại thời điểm phát hành, nhóm mô hình này cung cấp các triển khai mô hình nhúng mở hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự. Dựa trên các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, những mô hình này đã cho thấy hiệu suất vượt trội so với các mô hình mở khác có kích thước tương đương.