EmbeddingGemma 模型總覽

EmbeddingGemma 是以 Gemma 3 為基礎的 3.08 億參數多語言文字嵌入模型。這項技術經過最佳化,適用於手機、筆電和平板電腦等日常裝置。模型會產生文字的數值表示法,用於資訊檢索、語意相似度搜尋、分類和分群等下游工作。

EmbeddingGemma 包含下列重要功能:

  • 支援多種語言:可理解多種語言的資料,並以超過 100 種語言訓練而成。
  • 彈性輸出尺寸:使用 Matryoshka Representation Learning (MRL),自訂 768 至 128 的輸出尺寸,以兼顧速度和儲存空間。
  • 2K 權杖內容:提供大量輸入內容,可直接在硬體上處理文字資料和文件。
  • 節省儲存空間:透過量化在 RAM 不到 200 MB 的裝置上執行
  • 低延遲:在 EdgeTPU 上生成嵌入內容的時間不到 22 毫秒,可打造快速流暢的應用程式。
  • 離線安全:直接在硬體上生成文件嵌入內容,無需網路連線,確保機密資料安全無虞。

在 Hugging Face 上取得 在 Kaggle 上取得 在 Vertex 上存取

與其他 Gemma 模型一樣,EmbeddingGemma 提供開放權重,並授權用於負責任的商業用途,讓您在自己的專案和應用程式中微調及部署。

試用 EmbeddingGemma 微調 EmbeddingGemma