Trang mô hình: EmbeddingGemma
Tài nguyên và tài liệu kỹ thuật:
- Bộ công cụ AI tạo sinh có trách nhiệm
- Nhúng Gemma trên Kaggle
- Nhúng Gemma trên Model Garden của Vertex
Điều khoản sử dụng: Điều khoản
Tác giả: Google DeepMind
Thông tin mẫu
Nội dung mô tả tóm tắt và định nghĩa ngắn gọn về đầu vào và đầu ra.
Mô tả
EmbeddingGemma là một mô hình nhúng mở có 300 triệu tham số, hiện đại so với quy mô của nó, do Google phát triển, được xây dựng dựa trên Gemma 3 (với quá trình khởi tạo T5Gemma) và cùng nghiên cứu cũng như công nghệ được dùng để tạo các mô hình Gemini. EmbeddingGemma tạo ra các biểu diễn vectơ của văn bản, rất phù hợp cho các tác vụ tìm kiếm và truy xuất, bao gồm cả phân loại, phân cụm và tìm kiếm mức độ tương đồng về ngữ nghĩa. Mô hình này được huấn luyện bằng dữ liệu của hơn 100 ngôn ngữ nói.
Kích thước nhỏ và khả năng tập trung vào thiết bị giúp bạn có thể triển khai trong các môi trường có tài nguyên hạn chế như điện thoại di động, máy tính xách tay hoặc máy tính, giúp mọi người có thể tiếp cận các mô hình AI tiên tiến và thúc đẩy sự đổi mới.
Để biết thêm thông tin chi tiết về kỹ thuật, hãy tham khảo bài viết của chúng tôi: EmbeddingGemma: Powerful and Lightweight Text Representations (EmbeddingGemma: Biểu diễn văn bản mạnh mẽ và gọn nhẹ).
Đầu vào và đầu ra
Đầu vào:
- Chuỗi văn bản, chẳng hạn như câu hỏi, câu lệnh hoặc tài liệu cần được nhúng
- Độ dài tối đa của ngữ cảnh đầu vào là 2K
Kết quả:
- Biểu diễn vectơ số của dữ liệu văn bản đầu vào
- Kích thước của chiều nhúng đầu ra là 768, với các lựa chọn nhỏ hơn (512, 256 hoặc 128) thông qua Matryoshka Representation Learning (MRL). MRL cho phép người dùng cắt bớt kết quả nhúng có kích thước 768 thành kích thước mong muốn, sau đó chuẩn hoá lại để có được bản trình bày hiệu quả và chính xác.
Trích dẫn
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
Dữ liệu mô hình
Tập dữ liệu huấn luyện
Mô hình này được huấn luyện trên một tập dữ liệu văn bản bao gồm nhiều nguồn với tổng cộng khoảng 320 tỷ mã thông báo. Sau đây là các thành phần chính:
- Tài liệu trên web: Một bộ sưu tập đa dạng gồm văn bản trên web giúp đảm bảo mô hình được tiếp xúc với nhiều phong cách ngôn ngữ, chủ đề và từ vựng. Tập dữ liệu huấn luyện bao gồm nội dung bằng hơn 100 ngôn ngữ.
- Mã và tài liệu kỹ thuật: Việc cho mô hình tiếp xúc với mã và tài liệu kỹ thuật giúp mô hình học được cấu trúc và mẫu của các ngôn ngữ lập trình cũng như nội dung khoa học chuyên biệt, từ đó cải thiện khả năng hiểu mã và các câu hỏi kỹ thuật của mô hình.
- Dữ liệu tổng hợp và dữ liệu dành riêng cho từng nhiệm vụ: Dữ liệu huấn luyện tổng hợp giúp dạy cho mô hình các kỹ năng cụ thể. Điều này bao gồm dữ liệu được tuyển chọn cho các tác vụ như truy xuất thông tin, phân loại và phân tích quan điểm, giúp tinh chỉnh hiệu suất cho các ứng dụng nhúng phổ biến.
Việc kết hợp những nguồn dữ liệu đa dạng này là yếu tố then chốt để huấn luyện một mô hình nhúng đa ngôn ngữ mạnh mẽ, có thể xử lý nhiều loại nhiệm vụ và định dạng dữ liệu khác nhau.
Xử lý trước dữ liệu
Sau đây là các phương pháp lọc và làm sạch dữ liệu chính được áp dụng cho dữ liệu huấn luyện:
- Lọc nội dung xâm hại tình dục trẻ em: Chúng tôi áp dụng quy trình lọc nội dung xâm hại tình dục trẻ em (CSAM) nghiêm ngặt ở nhiều giai đoạn trong quy trình chuẩn bị dữ liệu để đảm bảo loại trừ nội dung gây hại và bất hợp pháp.
- Lọc dữ liệu nhạy cảm: Để đảm bảo các mô hình được huấn luyện trước Gemma an toàn và đáng tin cậy, chúng tôi đã sử dụng các kỹ thuật tự động để lọc một số thông tin cá nhân và dữ liệu nhạy cảm khác khỏi các tập huấn luyện.
- Các phương pháp khác: Lọc dựa trên chất lượng và độ an toàn của nội dung theo các chính sách của chúng tôi.
Phát triển mô hình
Phần cứng
EmbeddingGemma được huấn luyện bằng phần cứng Đơn vị xử lý tensor (TPU) thế hệ mới nhất (TPUv5e). Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.
Phần mềm
Quá trình huấn luyện được thực hiện bằng JAX và ML Pathways. Để biết thêm thông tin chi tiết, hãy tham khảo thẻ mô hình Gemma 3.
Đánh giá
Kết quả đo điểm chuẩn
Mô hình này được đánh giá dựa trên một bộ sưu tập lớn gồm nhiều tập dữ liệu và chỉ số để bao gồm nhiều khía cạnh của việc hiểu văn bản.
Điểm kiểm tra có độ chính xác cao
| MTEB (Đa ngôn ngữ, phiên bản 2) | ||
|---|---|---|
| Tính chất nhiều chiều | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| 768d | 61,15 | 54,31 |
| 512d | 60,71 | 53,89 |
| 256 ngày | 59,68 | 53,01 |
| 128 ngày | 58,23 | 51,77 |
| MTEB (Tiếng Anh, phiên bản 2) | ||
|---|---|---|
| Tính chất nhiều chiều | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| 768d | 69,67 | 65.11 |
| 512d | 69,18 | 64,59 |
| 256 ngày | 68,37 | 64,02 |
| 128 ngày | 66,66 | 62,70 |
| MTEB (Code, v1) | ||
|---|---|---|
| Tính chất nhiều chiều | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| 768d | 68,76 | 68,76 |
| 512d | 68,48 | 68,48 |
| 256 ngày | 66,74 | 66,74 |
| 128 ngày | 62,96 | 62,96 |
Các điểm kiểm tra QAT
| MTEB (Đa ngôn ngữ, phiên bản 2) | ||
|---|---|---|
| Cấu hình Quant (tính chất đa chiều) | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| Độ chính xác hỗn hợp* (768 ngày) | 60,69 | 53,82 |
| Q8_0 (768d) | 60,93 | 53,95 |
| Q4_0 (768d) | 60,62 | 53,61 |
| MTEB (Tiếng Anh, phiên bản 2) | ||
|---|---|---|
| Cấu hình Quant (tính chất đa chiều) | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| Độ chính xác hỗn hợp* (768 ngày) | 69,32 | 64,82 |
| Q8_0 (768d) | 69,49 | 64,84 |
| Q4_0 (768d) | 69,31 | 64,65 |
| MTEB (Code, v1) | ||
|---|---|---|
| Cấu hình Quant (tính chất đa chiều) | Trung bình (Nhiệm vụ) | Mean (TaskType) |
| Độ chính xác hỗn hợp* (768 ngày) | 68,03 | 68,03 |
| Q8_0 (768d) | 68,70 | 68,70 |
| Q4_0 (768d) | 67,99 | 67,99 |
* Độ chính xác hỗn hợp đề cập đến việc định lượng theo từng kênh bằng int4 cho các lớp nhúng, truyền thẳng và chiếu, đồng thời int8 cho sự chú ý (e4_a8_f4_p4).
Hướng dẫn về câu lệnh
EmbeddingGemma có thể tạo các vectơ nhúng được tối ưu hoá cho nhiều trường hợp sử dụng (chẳng hạn như truy xuất tài liệu, trả lời câu hỏi và xác minh thông tin) hoặc cho các loại dữ liệu đầu vào cụ thể (cụ thể là một cụm từ tìm kiếm hoặc một tài liệu) bằng cách sử dụng các câu lệnh được thêm vào trước chuỗi đầu vào.
Câu lệnh truy vấn tuân theo biểu mẫu task: {task description} | query:, trong đó nội dung mô tả nhiệm vụ thay đổi theo trường hợp sử dụng, với nội dung mô tả nhiệm vụ mặc định là search result. Câu lệnh theo kiểu tài liệu tuân theo dạng title: {title | "none"} | text:, trong đó tiêu đề là none (mặc định) hoặc tiêu đề thực tế của tài liệu. Xin lưu ý rằng việc cung cấp tiêu đề (nếu có) sẽ cải thiện hiệu suất của mô hình đối với câu lệnh về tài liệu nhưng có thể yêu cầu định dạng thủ công.
Sử dụng các câu lệnh sau đây dựa trên trường hợp sử dụng và loại dữ liệu đầu vào của bạn. Những lựa chọn này có thể đã có trong cấu hình EmbeddingGemma trong khung mô hình mà bạn chọn.
Trường hợp sử dụng (liệt kê loại tác vụ) |
Nội dung mô tả |
Câu lệnh đề xuất |
|---|---|---|
Truy xuất (Truy vấn) |
Được dùng để tạo các vectơ nhúng được tối ưu hoá cho việc tìm kiếm tài liệu hoặc truy xuất thông tin |
nhiệm vụ: kết quả tìm kiếm | cụm từ tìm kiếm: {content} |
Truy xuất (Tài liệu) |
title: {title | "none"} | text: {content} |
|
Trả lời câu hỏi |
nhiệm vụ: trả lời câu hỏi | truy vấn: {content} |
|
Xác minh tính xác thực |
nhiệm vụ: kiểm chứng thông tin | câu hỏi: {content} |
|
Phân loại |
Được dùng để tạo các vectơ nhúng được tối ưu hoá nhằm phân loại văn bản theo nhãn đặt sẵn |
task: classification | query: {content} |
Phân cụm |
Được dùng để tạo các mục nhúng được tối ưu hoá để phân cụm văn bản dựa trên sự tương đồng |
task: clustering | query: {content} |
Tính tương đồng về mặt ngữ nghĩa |
Được dùng để tạo các vectơ nhúng được tối ưu hoá nhằm đánh giá mức độ tương đồng của văn bản. Đây không phải là trường hợp sử dụng truy xuất. |
task: sentence similarity | query: {content} |
Truy xuất mã |
Được dùng để truy xuất một khối mã dựa trên truy vấn bằng ngôn ngữ tự nhiên, chẳng hạn như sort an array (sắp xếp một mảng) hoặc reverse a linked list (đảo ngược danh sách được liên kết). Các mục nhúng của khối mã được tính bằng retrieval_document. |
task: code retrieval | query: {content} |
Mức sử dụng và giới hạn
Các mô hình này có một số hạn chế mà người dùng cần biết.
Mục đích sử dụng
Các mô hình nhúng mở có nhiều ứng dụng trong nhiều ngành và lĩnh vực. Danh sách sau đây về các trường hợp sử dụng tiềm năng chưa phải là danh sách đầy đủ. Mục đích của danh sách này là cung cấp thông tin theo ngữ cảnh về những trường hợp sử dụng có thể xảy ra mà nhà sáng tạo mô hình đã cân nhắc trong quá trình huấn luyện và phát triển mô hình.
- Tính tương đồng về mặt ngữ nghĩa: Các vectơ nhúng được tối ưu hoá để đánh giá mức độ tương đồng của văn bản, chẳng hạn như hệ thống đề xuất và tính năng phát hiện nội dung trùng lặp
- Phân loại: Các vectơ nhúng được tối ưu hoá để phân loại văn bản theo nhãn đặt sẵn, chẳng hạn như phân tích quan điểm và phát hiện nội dung rác
- Phân cụm: Các mục nhúng được tối ưu hoá để phân cụm văn bản dựa trên sự tương đồng, chẳng hạn như tổ chức tài liệu, nghiên cứu thị trường và phát hiện điểm bất thường
Truy xuất
- Tài liệu: Các vectơ nhúng được tối ưu hoá cho tính năng tìm kiếm tài liệu, chẳng hạn như lập chỉ mục các bài viết, sách hoặc trang web để tìm kiếm
- Truy vấn: Các vectơ được tối ưu hoá cho các truy vấn tìm kiếm chung, chẳng hạn như tìm kiếm tuỳ chỉnh
- Truy vấn mã: Các vectơ nhúng được tối ưu hoá để truy xuất các khối mã dựa trên truy vấn bằng ngôn ngữ tự nhiên, chẳng hạn như đề xuất và tìm kiếm mã
Trả lời câu hỏi: Các vectơ nhúng cho câu hỏi trong hệ thống trả lời câu hỏi, được tối ưu hoá để tìm tài liệu trả lời câu hỏi, chẳng hạn như hộp trò chuyện.
Xác minh tính xác thực: Các câu lệnh cần được xác minh, được tối ưu hoá để truy xuất những tài liệu có bằng chứng ủng hộ hoặc bác bỏ câu lệnh, chẳng hạn như hệ thống tự động xác minh tính xác thực.
Các điểm hạn chế
Dữ liệu huấn luyện
- Chất lượng và tính đa dạng của dữ liệu huấn luyện ảnh hưởng đáng kể đến khả năng của mô hình. Thiên kiến hoặc lỗ hổng trong dữ liệu huấn luyện có thể dẫn đến những hạn chế trong câu trả lời của mô hình.
- Phạm vi của tập dữ liệu huấn luyện sẽ xác định các lĩnh vực mà mô hình có thể xử lý một cách hiệu quả.
Sự mơ hồ và sắc thái của ngôn ngữ
- Ngôn ngữ tự nhiên vốn dĩ rất phức tạp. Các mô hình có thể gặp khó khăn trong việc nắm bắt những sắc thái tinh tế, sự mỉa mai hoặc ngôn ngữ hình tượng.
Những điều cần cân nhắc và rủi ro về đạo đức
Các rủi ro đã xác định và biện pháp giảm thiểu:
- Duy trì sự thiên vị: Bạn nên thực hiện quy trình giám sát liên tục (sử dụng các chỉ số đánh giá, quy trình đánh giá thủ công) và khám phá các kỹ thuật giảm thiên vị trong quá trình huấn luyện mô hình, tinh chỉnh và các trường hợp sử dụng khác.
- Sử dụng sai mục đích cho mục đích xấu: Các giới hạn về kỹ thuật cũng như thông tin giáo dục dành cho nhà phát triển và người dùng cuối có thể giúp giảm thiểu các ứng dụng nhúng độc hại. Chúng tôi cung cấp tài nguyên giáo dục và cơ chế báo cáo để người dùng gắn cờ hành vi sử dụng sai. Các trường hợp bị cấm sử dụng mô hình Gemma được nêu trong Chính sách về các hành vi bị cấm khi sử dụng Gemma.
- Vi phạm quyền riêng tư: Các mô hình được huấn luyện dựa trên dữ liệu đã được lọc để loại bỏ một số thông tin cá nhân và dữ liệu nhạy cảm khác. Nhà phát triển nên tuân thủ các quy định về quyền riêng tư bằng các kỹ thuật bảo đảm quyền riêng tư.
Lợi ích
Tại thời điểm phát hành, nhóm mô hình này cung cấp các triển khai mô hình nhúng mở hiệu suất cao được thiết kế từ đầu để phát triển AI có trách nhiệm so với các mô hình có kích thước tương tự. Dựa trên các chỉ số đánh giá điểm chuẩn được mô tả trong tài liệu này, những mô hình này đã cho thấy hiệu suất vượt trội so với các mô hình mở khác có kích thước tương đương.