모델 페이지: EmbeddingGemma
리소스 및 기술 문서:
이용약관: 약관
저자: Google DeepMind
모델 정보
입력 및 출력의 요약 설명과 간단한 정의입니다.
설명
EmbeddingGemma는 Gemma 3 (T5Gemma 초기화 포함) 및 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술을 기반으로 빌드된 Google의 3억 개의 파라미터, 최첨단 개방형 임베딩 모델입니다. EmbeddingGemma는 텍스트의 벡터 표현을 생성하므로 분류, 클러스터링, 시맨틱 유사성 검색을 비롯한 검색 및 검색 작업에 적합합니다. 이 모델은 100개 이상의 음성 언어로 된 데이터로 학습되었습니다.
소규모이며 온디바이스에 중점을 두기 때문에 휴대폰, 노트북, 데스크톱과 같은 리소스가 제한된 환경에 배포할 수 있어 최첨단 AI 모델에 대한 액세스를 민주화하고 모든 사람의 혁신을 촉진하는 데 도움이 됩니다.
자세한 기술 내용은 EmbeddingGemma: 강력하고 가벼운 텍스트 표현 논문을 참고하세요.
입력 및 출력
- 입력: - 텍스트 문자열(예: 질문, 프롬프트, 삽입할 문서)
- 최대 입력 컨텍스트 길이 2K
 
- 출력: - 입력 텍스트 데이터의 숫자 벡터 표현
- Matryoshka Representation Learning(MRL)을 통해 더 작은 옵션 (512, 256, 128)을 사용할 수 있는 출력 임베딩 차원 크기 768 MRL을 사용하면 사용자가 크기가 768인 출력 임베딩을 원하는 크기로 자른 다음 효율적이고 정확한 표현을 위해 다시 정규화할 수 있습니다.
 
인용
@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}
모델 데이터
학습 데이터 세트
이 모델은 총 약 3,200억 개의 토큰으로 구성된 다양한 소스의 텍스트 데이터 세트로 학습되었습니다. 주요 구성요소는 다음과 같습니다.
- 웹 문서: 다양한 웹 텍스트를 통해 모델이 광범위한 언어 스타일, 주제, 어휘에 노출됩니다. 학습 데이터 세트에는 100개 이상의 언어로 된 콘텐츠가 포함되어 있습니다.
- 코드 및 기술 문서: 모델에 코드와 기술 문서를 노출하면 프로그래밍 언어와 전문 과학 콘텐츠의 구조와 패턴을 학습하여 코드와 기술 질문에 대한 이해도를 높일 수 있습니다.
- 합성 및 작업별 데이터: 합성 학습 데이터는 모델에 특정 기술을 가르치는 데 도움이 됩니다. 여기에는 정보 검색, 분류, 감정 분석과 같은 작업을 위한 선별된 데이터가 포함되어 있어 일반적인 삽입 애플리케이션의 성능을 미세 조정하는 데 도움이 됩니다.
이러한 다양한 데이터 소스를 결합하는 것은 다양한 작업과 데이터 형식을 처리할 수 있는 강력한 다국어 임베딩 모델을 학습하는 데 매우 중요합니다.
데이터 전처리
학습 데이터에 적용된 주요 데이터 정리 및 필터링 방법은 다음과 같습니다.
- CSAM 필터링: 데이터 준비 프로세스의 여러 단계에서 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링을 적용하여 유해하고 불법적인 콘텐츠를 제외했습니다.
- 민감한 정보 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있게 만들기 위한 노력의 일환으로, 자동화된 기술을 사용하여 학습 세트에서 특정한 개인 정보와 기타 민감한 정보를 필터링했습니다.
- 추가 방법: Google 정책에 따라 콘텐츠 품질 및 안전을 기준으로 필터링
모델 개발
하드웨어
EmbeddingGemma는 최신 세대의 Tensor Processing Unit (TPU) 하드웨어 (TPUv5e)를 사용하여 학습되었습니다. 자세한 내용은 Gemma 3 모델 카드를 참고하세요.
소프트웨어
학습은 JAX 및 ML Pathways를 사용하여 진행되었습니다. 자세한 내용은 Gemma 3 모델 카드를 참고하세요.
평가
벤치마크 결과
이 모델은 텍스트 이해의 다양한 측면을 다루기 위해 다양한 데이터 세트와 측정항목의 대규모 컬렉션을 대상으로 평가되었습니다.
전체 정밀도 체크포인트
| MTEB (다국어, v2) | ||
|---|---|---|
| 차원 | Mean (작업) | Mean (TaskType) | 
| 768d | 61.15 | 54.31 | 
| 512d | 60.71 | 53.89 | 
| 256일 | 59.68 | 53.01 | 
| 128일 | 58.23 | 51.77 | 
| MTEB (영어, v2) | ||
|---|---|---|
| 차원 | Mean (작업) | Mean (TaskType) | 
| 768d | 69.67 | 65.11 | 
| 512d | 69.18 | 64.59 | 
| 256일 | 68.37 | 64.02 | 
| 128일 | 66.66 | 62.70 | 
| MTEB (코드, v1) | ||
|---|---|---|
| 차원 | Mean (작업) | Mean (TaskType) | 
| 768d | 68.76 | 68.76 | 
| 512d | 68.48 | 68.48 | 
| 256일 | 66.74 | 66.74 | 
| 128일 | 62.96 | 62.96 | 
QAT 체크포인트
| MTEB (다국어, v2) | ||
|---|---|---|
| 양자화 구성 (차원) | Mean (작업) | Mean (TaskType) | 
| 혼합 정밀도* (768d) | 60.69 | 53.82 | 
| Q8_0 (768d) | 60.93 | 53.95 | 
| Q4_0 (768일) | 60.62 | 53.61 | 
| MTEB (영어, v2) | ||
|---|---|---|
| 양자화 구성 (차원) | Mean (작업) | Mean (TaskType) | 
| 혼합 정밀도* (768d) | 69.32 | 64.82 | 
| Q8_0 (768d) | 69.49 | 64.84 | 
| Q4_0 (768일) | 69.31 | 64.65 | 
| MTEB (코드, v1) | ||
|---|---|---|
| 양자화 구성 (차원) | Mean (작업) | Mean (TaskType) | 
| 혼합 정밀도* (768d) | 68.03 | 68.03 | 
| Q8_0 (768d) | 68.70 | 68.70 | 
| Q4_0 (768일) | 67.99 | 67.99 | 
* 혼합 정밀도는 삽입, 피드포워드, 프로젝션 레이어의 경우 int4, 어텐션의 경우 int8 (e4_a8_f4_p4)을 사용하는 채널별 양자화를 의미합니다.
프롬프트 안내
EmbeddingGemma는 입력 문자열 앞에 추가되는 프롬프트를 사용하여 문서 검색, 질문 답변, 사실 확인과 같은 다양한 사용 사례 또는 특정 입력 유형(질문 또는 문서)에 최적화된 임베딩을 생성할 수 있습니다.
질문 프롬프트는 task: {task description} | query: 형식을 따르며, 여기서 작업 설명은 사용 사례에 따라 달라지고 기본 작업 설명은 search result입니다. 문서 스타일 프롬프트는 title: {title | "none"} | text: 형식을 따릅니다. 여기서 제목은 none (기본값) 또는 문서의 실제 제목입니다. 사용 가능한 경우 제목을 제공하면 문서 프롬프트의 모델 성능이 향상되지만 수동으로 형식을 지정해야 할 수 있습니다.
사용 사례 및 입력 데이터 유형에 따라 다음 프롬프트를 사용하세요. 이러한 모델은 선택한 모델링 프레임워크의 EmbeddingGemma 구성에서 이미 사용 가능할 수 있습니다.
| 사용 사례 (작업 유형 열거형) | 설명 | 권장 프롬프트 | 
|---|---|---|
| 검색 (질문) | 문서 검색이나 정보 검색에 최적화된 임베딩을 생성하는 데 사용됩니다. | 작업: 검색 결과 | 질문: {content} | 
| 검색 (문서) | title: {title | "none"} | text: {content} | |
| 질의 응답 | task: question answering | query: {content} | |
| 사실 확인 | task: fact checking | query: {content} | |
| 분류 | 사전 설정된 라벨에 따라 텍스트를 분류하도록 최적화된 임베딩을 생성하는 데 사용됩니다. | task: classification | query: {content} | 
| 클러스터링 | 유사성을 기반으로 텍스트를 클러스터링하는 데 최적화된 임베딩을 생성하는 데 사용됩니다. | task: clustering | query: {content} | 
| 의미론적 유사도 | 텍스트 유사성을 평가하도록 최적화된 임베딩을 생성하는 데 사용됩니다. 검색 사용 사례에는 적합하지 않습니다. | task: sentence similarity | query: {content} | 
| 코드 검색 | 배열 정렬 또는 연결 리스트 역순 정렬과 같은 자연어 쿼리를 기반으로 코드 블록을 검색하는 데 사용됩니다. 코드 블록의 임베딩은 retrieval_document를 사용하여 계산됩니다. | task: code retrieval | query: {content} | 
사용 및 제한사항
이러한 모델에는 사용자가 알아야 할 특정 제한사항이 있습니다.
용도
개방형 임베딩 모델은 다양한 산업과 도메인에서 광범위하게 적용됩니다. 다음은 잠재적 사용 사례의 목록이며, 이 목록의 목적은 모델 학습 및 개발의 일환으로 모델 제작자가 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다.
- 시맨틱 유사성: 추천 시스템, 중복 감지와 같은 텍스트 유사성을 평가하도록 최적화된 임베딩
- 분류: 감정 분석, 스팸 감지와 같은 사전 설정된 라벨에 따라 텍스트를 분류하도록 최적화된 임베딩
- 클러스터링: 문서 정리, 시장 조사, 이상 감지와 같이 유사성을 기반으로 텍스트를 클러스터링하는 데 최적화된 임베딩
- 검색 - 문서: 검색을 위해 기사, 책 또는 웹페이지를 색인화하는 등 문서 검색에 최적화된 임베딩
- 질문: 맞춤 검색과 같은 일반 검색 질문에 최적화된 임베딩
- 코드 쿼리: 코드 제안 및 검색과 같은 자연어 쿼리를 기반으로 코드 블록 검색에 최적화된 임베딩
 
- 질의 응답: 질문에 답변하는 문서를 찾는 데 최적화된 질의 응답 시스템의 질문에 대한 임베딩(예: 챗박스) 
- 사실 확인: 사실 확인이 필요한 문장의 임베딩으로, 자동 사실 확인 시스템과 같이 문장을 뒷받침하거나 반박하는 증거가 포함된 문서를 검색하도록 최적화되어 있습니다. 
제한사항
- 학습 데이터 - 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터의 편향이나 격차로 인해 모델의 대답에 제한이 발생할 수 있습니다.
- 학습 데이터 세트의 범위에 따라 모델이 효과적으로 처리할 수 있는 주제 영역이 결정됩니다.
 
- 언어의 모호성과 뉘앙스 - 자연어는 본질적으로 복잡합니다. 모델이 미묘한 뉘앙스, 비꼬는 표현, 비유적 표현을 파악하는 데 어려움을 겪을 수 있습니다.
 
윤리적 고려사항 및 위험
확인된 위험 및 완화:
- 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 지속적인 모니터링(평가 측정항목, 인적 검토 사용)과 편향 제거 기법 탐색을 수행하는 것이 좋습니다.
- 악의적인 목적으로 오용: 기술적 제한과 개발자 및 최종 사용자 교육을 통해 삽입의 악의적인 애플리케이션을 완화할 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다. Gemma 모델의 금지된 사용은 Gemma 금지된 사용 정책에 설명되어 있습니다.
- 개인 정보 보호 위반: 특정 개인 정보 및 기타 민감한 데이터를 삭제하기 위해 필터링된 데이터를 기반으로 모델이 학습되었습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.
이점
출시 시점에 이 모델 제품군은 유사한 크기의 모델과 비교했을 때 책임감 있는 AI 개발을 위해 처음부터 설계된 고성능 개방형 임베딩 모델 구현을 제공합니다. 이러한 모델은 이 문서에 설명된 벤치마크 평가 측정항목을 사용하여 크기가 비슷한 다른 오픈 모델 대안보다 우수한 성능을 보여주었습니다.