Hugging Face |
GitHub |
Launch Blog |
Documentation
라이선스: Apache 2.0 | 작성자: Google DeepMind
DiffusionGemma는 Google DeepMind에서 빌드한 생성 모델입니다. DiffusionGemma는 26B A4B 전문가 망 (MoE) Gemma 4 아키텍처를 기반으로 이산 확산을 사용하여 토큰을 생성합니다. 이 개방형 가중치 모델은 멀티모달로, 텍스트, 이미지, 동영상 입력을 처리하여 텍스트 출력을 생성합니다.
MoE 기반으로 빌드된 DiffusionGemma는 다양한 하드웨어 환경에서 배포 가능한 상태를 유지하면서 생성 속도 (초당 토큰 수)를 개선하도록 설계되었습니다. DiffusionGemma는 Gemma 4의 아키텍처 및 기능 발전을 기반으로 여러 핵심 기능을 도입합니다.
- 이산 텍스트 확산 – 토큰별 자동 회귀에서 블록 자동 회귀 멀티 캔버스 샘플링으로 전환합니다. 토큰 블록('캔버스')을 병렬로 반복적으로 노이즈 제거하여 텍스트를 생성하므로 디코딩 속도가 크게 향상됩니다.
- 멀티모달 입력 처리 – 인터리브된 텍스트, 이미지 (가변 가로세로 비율 및 해상도 지원), 동영상 입력을 처리하여 텍스트 출력을 생성합니다.
- 인코더-디코더 아키텍처 – 자동 회귀 인코더를 활용하여 프롬프트 컨텍스트를 처리하고 캐시하며, 생성 캔버스에 양방향 어텐션을 적용하는 디코더와 페어링합니다.
- 전문가 망 (MoE) 효율성 – 희소 MoE 설계 (총 128개 중 8개의 활성 전문가)를 활용하여 강력한 추론 기능을 제공하는 동시에 로컬 실행에 적합한 낮은 메모리 사용 공간을 유지합니다.
- 사고 모드 (추론) – 구성 가능한 사고 모드를 갖춘 고성능 추론기로 설계되었습니다.
- 소규모 일괄 처리 추론에 최적화 – 단일 고성능 가속기에서 짧은 지연 시간과 빠른 생성 속도를 위해 특별히 설계되었습니다.
- 기본 시스템 프롬프트 지원 – Gemma 4와 마찬가지로
system역할을 업데이트하여 보다 구조화되고 제어 가능한 대화를 지원합니다.
모델 개요
DiffusionGemma는 표준 인과 언어 모델의 순차적 병목 현상을 줄이도록 설계되었습니다. 추론 속도에 맞게 특별히 최적화된 인코더-디코더 아키텍처를 사용합니다.
인코더는 사전 입력 용량으로 작동하여 초기 프롬프트를 처리하고 KV 캐시를 생성합니다. 그런 다음 디코더는 양방향 어텐션을 사용하여 토큰의 입력 블록('캔버스')을 처리하고 교차 어텐션을 통해 캐시된 컨텍스트에 액세스합니다.
추론 중에 DiffusionGemma는 멀티 캔버스 샘플링을 활용합니다. 모델은 한 번에 하나의 토큰을 생성하는 대신 확산 샘플러를 사용하여 전체 토큰 블록을 반복적으로 노이즈 제거합니다. 캔버스가 완전히 노이즈 제거되면 인코더에서 처리되고 KV 캐시에 추가된 후 모델이 다음 캔버스를 생성합니다. 이 블록 자동 회귀 접근 방식을 사용하면 더 빠른 속도로 텍스트를 생성할 수 있습니다.
DiffusionGemma
| 총 매개변수 | 252억 개 | | 활성 매개변수 | 38억 개 | | 레이어 | 30 | | 슬라이딩 윈도우 | 1,024개 토큰 | | 컨텍스트 길이 | 최대 256,000개 토큰 | | 캔버스 길이 | 256 | | 어휘 크기 | 262,000개 | | 전문가 수 | 8개 활성 / 총 128개 및 1개 공유 | | 지원되는 형식 | 텍스트, 이미지 | | 비전 인코더 매개변수 | 약 5억 5천만 개 |
벤치마크 결과
이러한 모델은 텍스트 생성의 다양한 측면을 다루기 위해 다양한 데이터 세트와 측정항목을 대상으로 평가되었습니다. 표에 표시된 평가 결과는 권장되는 엔트로피 경계 (EB) 샘플러 (아래 권장사항 참고)가 있는 명령 조정 모델에 대한 것입니다.
| 벤치마크 | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 도구 없음 | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA 다이아몬드 | 73.2% | 82.3% |
| Tau2 (3개 평균) | 56.2% | 68.2% |
| HLE 도구 없음 | 11.0% | 8.7% |
| HLE(검색 포함) | 11.9% | 17.2% |
| BigBench Extra Hard | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| Vision | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (평균 편집 거리, 낮을수록 좋음) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| 긴 컨텍스트 | ||
| MRCR v2 8 니들 128k (평균) | 32.0% | 44.1% |
주요 기능
DiffusionGemma는 텍스트와 비전 전반에 걸쳐 광범위한 작업을 처리합니다. 주요 기능은 다음과 같습니다.
- 고속 생성 - 확산 샘플링을 통한 256개 토큰의 병렬 노이즈 제거는 전달당 15~20개의 토큰을 생성하여 지연 시간을 줄이고, 소규모 배치 크기 설정 (H100, FP8)에서 초당 1,100개 이상의 토큰을 초과하는 사용자별 생성 속도를 제공합니다.
- 적응형 추론 시간 계산 - 코드와 같은 간단한 프롬프트와 구조화된 작업에는 노이즈 제거 단계가 적게 필요하므로 작업 복잡성에 따라 동적 초당 토큰 속도를 사용할 수 있습니다.
- 사고 – 모델이 대답하기 전에 단계별로 사고할 수 있는 기본 제공 추론 모드입니다.
- 긴 컨텍스트 – 최대 256,000개 토큰의 컨텍스트 윈도우입니다.
- 이미지 이해 – 객체 감지, 문서/PDF 파싱, 화면 및 UI 이해, 차트 이해, OCR (다국어 포함), 필기 인식, 포인팅. 이미지는 가변 가로세로 비율과 해상도로 처리할 수 있습니다.
- 동영상 이해 – 프레임 시퀀스를 처리하여 동영상 콘텐츠를 분석하고 설명합니다.
- 인터리브된 멀티모달 입력 – 컨텍스트가 많은 추론을 위해 단일 프롬프트 내에서 이미지, 동영상, 텍스트를 혼합합니다.
- 함수 호출 – 구조화된 도구 사용을 기본적으로 지원하여 에이전트형 워크플로를 지원합니다.
- 코딩 및 추론 – 코드 생성, 완성, 단계별 논리적 추론이 가능합니다.
- 다국어 – 35개 이상의 언어를 기본적으로 지원하며 140개 이상의 언어로 선행 학습되었습니다.
권장사항
최상의 성능을 위해 다음 구성 및 권장사항을 사용하세요.
1. 확산 샘플링 설정
모든 사용 사례에서 다음 표준화된 샘플링 구성을 사용합니다.
- 메서드: 엔트로피 경계 노이즈 제거 및 적응형 중지를 사용한 확산 샘플링입니다.
- 샘플링 구성:
- 최대 노이즈 제거 단계 수 = 48
- 온도 설정 일정 (로짓 형성): 0.8 → 0.4로 선형 감소
- 토큰 선택: 각 단계에서 샘플러는 상호 정보 경계가 엔트로피 경계 = 0.1 아래로 유지되도록 가장 낮은 엔트로피 토큰을 선택합니다.
- 토큰 노이즈 제거: 샘플러는 선택되지 않은 토큰을 완전히 노이즈 제거합니다.
- 적응형 중지: 다음 두 조건이 동시에 충족되는 경우에만 샘플링이 조기에 종료됩니다.
- 신뢰도 높은 예측: 캔버스에 대한 평균 모델 엔트로피가 엔트로피 임곗값 = 0.005 아래입니다.
- 안정적인 예측: 확률이 가장 높은 토큰 예측은 연속된 두 노이즈 제거 단계에서 동일하게 유지됩니다.
2. 사고 모드 구성
Gemma 4 모델과 마찬가지로 표준 system, assistant, user 역할을 사용합니다. 사고 프로세스를 올바르게 관리하려면 다음 제어 토큰을 사용하세요.
- 사고 트리거: 시스템 프롬프트의 시작 부분에
<|think|>토큰 을 포함하여 사고를 사용 설정합니다. 사고를 사용 중지하려면 토큰을 삭제합니다(빈 사고 채널이 계속 발생할 수 있음). - 표준 생성: 사고가 사용 설정되면 모델은 이 구조를 사용하여 최종 대답 다음에 내부 추론을 출력합니다.
<|channel>thought\n[내부 추론]<channel|>. - 사고 사용 중지 동작: 사고가 사용 중지된 경우 모델은
여전히 태그를 생성하지만 빈 사고 블록이 포함됩니다.
<|channel>thought\n<channel|>[최종 대답].
트랜스포머와 같은 많은 라이브러리는 채팅 템플릿의 복잡성을 처리합니다.
3. 멀티턴 대화
- 기록에 사고 콘텐츠 없음: 멀티턴 대화에서 이전 모델의 출력에는 최종 대답만 포함되어야 합니다. 다음 사용자 턴이 시작되기 전에 이전 모델 턴의 사고를 추가해서는 안 됩니다.
4. 형식 순서
- 멀티모달 입력으로 최적의 성능을 얻으려면 프롬프트에서 텍스트 앞에 이미지 콘텐츠를 배치하세요.
5. 가변 이미지 해상도
가변 가로세로 비율 외에도 DiffusionGemma는 이미지를 나타내는 데 사용되는 토큰 수를 제어하는 구성 가능한 시각적 토큰 예산을 통해 가변 이미지 해상도를 지원합니다. 토큰 예산이 높을수록 추가 컴퓨팅 비용이 발생하지만 시각적 세부정보가 더 많이 유지되고, 예산이 낮을수록 세분화된 이해가 필요하지 않은 작업의 추론 속도가 빨라집니다.
- 지원되는 토큰 예산은: 70, 140, 280, 560, 및
1120입니다.
- 세분화된 세부정보보다 빠른 추론과 많은 프레임 처리가 더 중요한 분류, 캡셔닝 또는 동영상 이해에는 낮은 예산 을 사용하세요.
- OCR, 문서 파싱 또는 작은 텍스트 읽기와 같은 작업에는 높은 예산 을 사용하세요.
6. 동영상 길이
모든 모델은 이미지 입력을 지원하며 동영상을 프레임으로 처리할 수 있습니다. 동영상은 이미지가 초당 1프레임으로 처리된다고 가정할 때 최대 60초를 지원합니다.
모델 데이터
모델 학습에 사용된 데이터와 데이터가 처리된 방식입니다.
학습 데이터 세트
Google의 선행 학습 데이터 세트는 2025년 1월의 컷오프 날짜를 기준으로 웹 문서, 코드, 이미지, 오디오를 포함하여 광범위한 도메인과 형식을 포괄하는 대규모의 다양한 데이터 모음입니다. 주요 구성요소는 다음과 같습니다.
- 웹 문서: 다양한 웹 텍스트 모음을 통해 모델이 광범위한 언어 스타일, 주제, 어휘에 노출됩니다. 학습 데이터 세트에는 140개 이상의 언어로 된 콘텐츠가 포함되어 있습니다.
- 코드: 모델을 코드에 노출하면 프로그래밍 언어의 구문과 패턴을 학습하는 데 도움이 되므로 코드 생성 및 코드 관련 질문 이해 능력이 향상됩니다.
- 수학: 수학 텍스트를 학습하면 모델이 논리적 추론, 기호 표현을 학습하고 수학적 질문을 해결하는 데 도움이 됩니다.
- 이미지: 광범위한 이미지를 통해 모델이 이미지 분석 및 시각적 데이터 추출 작업을 수행할 수 있습니다.
이러한 다양한 데이터 소스를 결합하는 것은 다양한 작업과 데이터 형식을 처리할 수 있는 강력한 멀티모달 모델을 학습하는 데 매우 중요합니다.
데이터 전처리
다음은 학습 데이터에 적용된 주요 데이터 정리 및 필터링 메서드입니다.
- CSAM 필터링: 유해하고 불법적인 콘텐츠를 제외하기 위해 데이터 준비 프로세스의 여러 단계에서 엄격한 CSAM (아동 성적 학대 콘텐츠) 필터링이 적용되었습니다.
- 민감한 데이터 필터링: Gemma의 선행 학습된 모델을 안전하고 신뢰할 수 있게 만들기 위한 노력의 일환으로, 자동화된 기술을 사용하여 학습 세트에서 특정한 개인 정보와 기타 민감한 정보를 필터링했습니다.
- 추가 메서드: Google 정책에 따라 콘텐츠 품질 및 안전을 기반으로 필터링합니다.
윤리 및 안전
개방형 모델이 엔터프라이즈 인프라의 중심이 되면서 출처와 보안이 가장 중요해졌습니다. Google DeepMind에서 개발한 DiffusionGemma는 Google의 독점 Gemini 모델과 동일한 엄격한 안전 평가를 거칩니다.
평가 접근 방식
DiffusionGemma는 내부 안전 및 책임감 있는 AI팀과 협력하여 개발되었습니다. 모델 안전을 개선하기 위해 다양한 자동 평가와 인적 평가가 진행되었습니다. 이러한 평가는 Google의 AI 원칙과 안전 정책에 부합하며, Google의 생성형 AI 모델이 다음과 같은 유해한 콘텐츠를 생성하지 못하도록 하는 것을 목표로 합니다. 포함:
- 아동 성적 학대 콘텐츠 및 착취와 관련된 콘텐츠
- 위험한 콘텐츠 (예: 자살을 조장하거나 실제 피해를 입힐 수 있는 활동을 안내)
- 음란물
- 증오심 표현 (예: 보호 대상 집단의 구성원을 비인간화)
- 괴롭힘 (예: 사람에 대한 폭력을 조장)
평가 결과
모든 안전 테스트 영역에서 이전 세대의 Gemma 모델에 비해 모든 콘텐츠 안전 카테고리가 크게 개선되었습니다. 전반적으로 DiffusionGemma는 Gemma 4 모델과 마찬가지로 부당한 거부를 낮게 유지하면서 안전을 개선하는 데 있어 Gemma 3 및 3n 모델보다 훨씬 뛰어난 성능을 보입니다. 모든 테스트는 모델의 기본 기능과 기준 동작을 평가하기 위해 안전 필터 없이 의도적으로 진행되었습니다. 텍스트 간 변환 및 이미지 텍스트 변환 모두, 그리고 모든 모델 크기에서 모델은 정책 위반을 최소화하고 이전 Gemma 모델보다 크게 개선되었습니다.
사용 및 제한사항
이러한 모델에는 사용자가 알고 있어야 하는 몇 가지 제한사항이 있습니다.
권장 용도
멀티모달 모델 (비전, 언어 또는 오디오를 처리할 수 있음)은 다양한 산업과 도메인에서 광범위하게 활용될 수 있습니다. 다음은 잠재적 용도의 일부이며, 모든 사례를 포함하고 있지는 않습니다. 이 목록의 목적은 모델 생성자가 모델 학습 및 개발의 일환으로 고려한 가능한 사용 사례에 관한 컨텍스트 정보를 제공하는 것입니다.
- 콘텐츠 제작 및 커뮤니케이션
- 텍스트 생성: 시, 스크립트, 코드, 마케팅 문구, 이메일 초안과 같은 창의적인 텍스트 형식을 생성합니다.
- 챗봇 및 대화형 AI: 고객 서비스, 가상 어시스턴트 또는 대화형 애플리케이션을 위한 대화형 인터페이스를 지원합니다.
- 텍스트 요약: 텍스트 코퍼스, 연구 논문 또는 보고서의 간결한 요약을 생성합니다.
- 이미지 데이터 추출: 텍스트 커뮤니케이션을 위해 시각적 데이터를 추출, 해석, 요약합니다.
- 연구 및 교육
- 자연어 처리 (NLP) 및 VLM 연구: 연구자가 VLM 및 NLP 기술을 실험하고, 알고리즘을 개발하고, 이 분야의 발전에 기여할 수 있는 기반을 제공합니다.
- 언어 학습 도구: 대화형 언어 학습 환경을 지원하여 문법 교정 또는 쓰기 연습을 제공합니다.
- 지식 탐색: 연구자가 요약을 생성하거나 특정 주제에 관한 질문에 대답하여 대규모 텍스트를 탐색하도록 지원합니다.
제한사항
- 학습 데이터
- 학습 데이터의 품질과 다양성은 모델의 기능에 큰 영향을 미칩니다. 학습 데이터의 편향 또는 격차는 모델의 대답에 제한을 초래할 수 있습니다.
- 학습 데이터 세트의 범위는 모델이 효과적으로 처리할 수 있는 주제 영역을 결정합니다.
- 컨텍스트 및 작업 복잡성
- 모델은 명확한 프롬프트와 안내로 구성할 수 있는 작업에서 우수한 성능을 발휘합니다. 개방형 또는 매우 복잡한 작업은 어려울 수 있습니다.
- 모델의 성능은 제공된 컨텍스트의 양에 영향을 받을 수 있습니다 (일반적으로 컨텍스트가 길수록 특정 지점까지 더 나은 출력이 생성됨).
- 언어 모호성 및 뉘앙스
- 자연어는 본질적으로 복잡합니다. 모델은 미묘한 뉘앙스, 비꼬는 말 또는 비유적 언어를 파악하는 데 어려움을 겪을 수 있습니다.
- 사실 정확성
- 모델은 학습 데이터 세트에서 학습한 정보를 기반으로 대답을 생성하지만 지식 기반은 아닙니다. 부정확하거나 오래된 사실 진술을 생성할 수 있습니다.
- 상식
- 모델은 언어의 통계적 패턴에 의존합니다. 특정 상황에서 상식적 추론을 적용하는 능력이 부족할 수 있습니다.
윤리적 고려사항 및 위험
개방형 비전 언어 모델을 만들 때 다음과 같은 사항을 신중하게 고려했습니다.
- 편향 및 공정성
- 대규모 실제 텍스트 및 이미지 데이터로 학습된 VLM은 학습 자료에 내재된 사회문화적 편향을 반영할 수 있습니다. DiffusionGemma는 이러한 편향의 위험을 완화하기 위해 이 카드에 보고된 대로 신중한 검토, 입력 데이터 전처리, 학습 후 평가를 거쳤습니다.
- 잘못된 정보 및 오용
- VLM은 허위, 오해의 소지가 있거나 유해한 텍스트를 생성하는 데 오용될 수 있습니다.
- 모델의 책임감 있는 사용을 위한 가이드라인이 제공됩니다. 책임감 있는 생성형 AI 툴킷을 참고하세요.
- 투명성 및 책임성
- 이 모델 카드에는 모델의 아키텍처, 기능, 제한사항, 평가 프로세스에 관한 세부정보가 요약되어 있습니다.
- 책임감 있게 개발된 개방형 모델은 AI 생태계 전반의 개발자와 연구자가 VLM 기술에 액세스할 수 있도록 하여 혁신을 공유할 기회를 제공합니다.
확인된 위험 및 완화:
- 유해한 콘텐츠 생성: 콘텐츠 안전을 위한 메커니즘과 가이드라인이 필수적입니다. 개발자는 특정 제품 정책 및 애플리케이션 사용 사례에 따라 주의를 기울이고 적절한 콘텐츠 안전 보호 장치를 구현하는 것이 좋습니다.
- 악의적인 목적으로 오용: 기술적 제한사항과 개발자 및 최종 사용자 교육은 VLM의 악의적인 애플리케이션을 완화하는 데 도움이 될 수 있습니다. 사용자가 오용을 신고할 수 있는 교육 리소스와 신고 메커니즘이 제공됩니다.
- 개인 정보 보호 위반: 모델은 특정 개인 정보와 기타 민감한 정보를 삭제하기 위해 필터링된 데이터를 기반으로 학습되었습니다. 개발자는 개인 정보 보호 기술을 사용하여 개인 정보 보호 규정을 준수하는 것이 좋습니다.
- 편향 지속: 모델 학습, 미세 조정, 기타 사용 사례 중에 평가 측정항목, 인적 검토를 사용하여 지속적으로 모니터링하고 편향 제거 기술을 탐색하는 것이 좋습니다.
혜택
출시 시점에는 지연 시간이 짧고 성능이 우수한 개방형 비전 언어 모델로, 개발자와 확산 언어 모델 연구에 관심이 있는 사용자에게 매력적인 옵션을 제공합니다. 이 모델은 유사한 크기의 모델과 비교하여 책임감 있는 AI 개발을 위해 처음부터 설계되었습니다.