EmbeddingGemma 모델 개요

EmbeddingGemma는 Gemma 3를 기반으로 하는 3억 8백만 개의 파라미터가 있는 다국어 텍스트 임베딩 모델입니다. 휴대전화, 노트북, 태블릿과 같은 일상적인 기기에서 사용하도록 최적화되어 있습니다. 이 모델은 정보 검색, 의미 유사성 검색, 분류, 클러스터링과 같은 다운스트림 작업에 사용할 텍스트의 숫자 표현을 생성합니다.

EmbeddingGemma에는 다음과 같은 주요 기능이 포함되어 있습니다.

  • 다국어 지원: 100개가 넘는 언어로 학습된 광범위한 언어 데이터 이해
  • 유연한 출력 크기: Matryoshka Representation Learning (MRL)을 사용하여 속도와 저장소 간의 균형을 위해 출력 크기를 768~128로 맞춤설정합니다.
  • 2,000개 토큰 컨텍스트: 하드웨어에서 직접 텍스트 데이터와 문서를 처리하기 위한 실질적인 입력 컨텍스트입니다.
  • 스토리지 효율성: 양자화로 200MB 미만의 RAM에서 실행
  • 짧은 지연 시간: EdgeTPU에서 22ms 미만의 생성형 임베딩으로 빠르고 유연한 애플리케이션을 지원합니다.
  • 오프라인 및 보안: 하드웨어에서 직접 문서의 삽입을 생성하며, 인터넷 연결 없이 작동하여 민감한 데이터를 안전하게 유지합니다.

Hugging Face에서 다운로드 Kaggle에서 다운로드 Vertex에서 액세스

다른 Gemma 모델과 마찬가지로 EmbeddingGemma는 공개 가중치와 함께 제공되며 책임감 있는 상업적 사용을 위해 라이선스가 부여되므로 자체 프로젝트와 애플리케이션에서 미세 조정하고 배포할 수 있습니다.

EmbeddingGemma 사용해 보기 EmbeddingGemma 미세 조정하기