Hugging Face |
GitHub |
Launch Blog |
Dokumentasi
Lisensi: Apache 2.0 | Penulis: Google DeepMind
DiffusionGemma adalah model generatif yang dibuat oleh Google DeepMind. Berdasarkan arsitektur Gemma 4 Campuran Pakar (MoE) A4B 26B, DiffusionGemma menghasilkan token menggunakan difusi diskrit. Model bobot terbuka ini bersifat multimodal, menangani input teks, gambar, dan video untuk menghasilkan output teks.
Dibangun di atas fondasi MoE, DiffusionGemma dirancang untuk meningkatkan kecepatan pembuatan (token per detik) sekaligus tetap dapat di-deploy di berbagai lingkungan hardware. DiffusionGemma dibangun berdasarkan kemajuan arsitektur dan kemampuan Gemma 4, dengan memperkenalkan beberapa fitur inti:
- Difusi Teks Diskrit – Beralih dari autoregresi token demi token ke pengambilan sampel multi-kanvas autoregresif blok. Model ini menghasilkan teks dengan menghilangkan noise pada blok token ('kanvas') secara paralel, sehingga meningkatkan kecepatan decoding secara signifikan.
- Pemrosesan Input Multimodal – Memproses input teks, gambar (dengan dukungan rasio aspek dan resolusi variabel), dan video yang disisipkan untuk menghasilkan output teks.
- Arsitektur Encoder-Decoder – Menggunakan encoder autoregresif untuk memproses dan menyimpan konteks perintah dalam cache, yang dipasangkan dengan decoder yang menerapkan perhatian dua arah pada kanvas pembuatan.
- Efisiensi Campuran Pakar (MoE) – Memanfaatkan desain MoE yang jarang (8 pakar aktif dari total 128) untuk memberikan kemampuan penalaran yang kuat sekaligus mempertahankan jejak memori rendah yang sesuai untuk eksekusi lokal.
- Mode Penalaran (Penalaran) – Dirancang sebagai alat penalaran yang sangat mumpuni, dengan mode penalaran yang dapat dikonfigurasi.
- Dioptimalkan untuk Inferensi Ukuran Batch Kecil – Direkayasa secara khusus untuk pembuatan berkecepatan tinggi dan latensi rendah pada satu akselerator yang mumpuni.
- Dukungan Perintah Sistem Native – Seperti Gemma 4, model ini mendukung pembaruan peran
system, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
Ringkasan Model
DiffusionGemma direkayasa untuk mengurangi hambatan berurutan pada model bahasa kausal standar. Model ini menggunakan arsitektur encoder-decoder yang dioptimalkan secara khusus untuk kecepatan inferensi.
Encoder beroperasi dalam kapasitas pra-pengisian, memproses perintah awal, dan menghasilkan cache KV. Decoder kemudian menggunakan perhatian dua arah untuk memproses blok input (sebuah 'kanvas') token, mengakses konteks yang di-cache melalui perhatian silang.
Selama inferensi, DiffusionGemma memanfaatkan pengambilan sampel multi-kanvas. Daripada menghasilkan satu token dalam satu waktu, model ini secara berulang menghilangkan noise pada blok token lengkap menggunakan sampler difusi. Setelah kanvas sepenuhnya dihilangkan noise-nya, kanvas tersebut akan diproses oleh encoder dan ditambahkan ke cache KV, setelah itu model akan menghasilkan kanvas berikutnya. Pendekatan autoregresif blok ini memfasilitasi pembuatan teks dengan kecepatan yang lebih tinggi.
DiffusionGemma
| Total Parameter | 25,2 Miliar | | Parameter Aktif | 3,8 Miliar | | Lapisan | 30 | | Jendela Geser | 1.024 token | | Panjang Konteks | Hingga 256 ribu token | | Panjang Kanvas | 256 | | Ukuran Kosakata | 262 ribu | | Jumlah Pakar | 8 aktif / 128 total dan 1 bersama | | Modalitas yang Didukung | Teks, Gambar | | Parameter Encoder Vision | ~550 Juta |
Hasil Benchmark
Model ini dievaluasi terhadap koleksi besar berbagai set data dan metrik untuk mencakup berbagai aspek pembuatan teks. Hasil evaluasi yang ditandai dalam tabel adalah untuk model yang disesuaikan dengan petunjuk, dengan sampler Batas Entropi (EB) yang direkomendasikan (lihat Praktik Terbaik di bawah).
| Benchmark | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77,6% | 82,6% |
| AIME 2026 tanpa alat | 69,1% | 88,3% |
| LiveCodeBench v6 | 69,1% | 77,1% |
| Codeforces ELO | 1429 | 1718 |
| GPQA Diamond | 73,2% | 82,3% |
| Tau2 (rata-rata lebih dari 3) | 56,2% | 68,2% |
| HLE tanpa alat | 11,0% | 8,7% |
| HLE dengan penelusuran | 11,9% | 17,2% |
| BigBench Extra Hard | 47,6% | 64,8% |
| MMMLU | 81,5% | 86,3% |
| Vision | ||
| MMMU Pro | 54,3% | 73,8% |
| OmniDocBench 1.5 (jarak edit rata-rata, semakin rendah semakin baik) | 0,319 | 0,149 |
| MATH-Vision | 70,5% | 82,4% |
| MedXPertQA MM | 49,0% | 58,1% |
| Konteks Panjang | ||
| MRCR v2 8 needle 128k (rata-rata) | 32,0% | 44,1% |
Kemampuan Inti
DiffusionGemma menangani berbagai tugas di seluruh teks dan penglihatan. Kemampuan utama meliputi:
- Pembuatan Berkecepatan Tinggi - penghilangan noise paralel 256 token melalui pengambilan sampel difusi mencapai latensi rendah dengan menghasilkan 15-20 token per penerusan maju, sehingga kecepatan pembuatan per pengguna melebihi 1.100 token per detik dalam setelan ukuran tumpukan rendah (H100, FP8).
- Penghitungan Waktu Inferensi Adaptif - Perintah yang lebih sederhana dan tugas terstruktur seperti kode memerlukan lebih sedikit langkah penghilangan noise, sehingga memungkinkan kecepatan token per detik yang dinamis berdasarkan kompleksitas tugas.
- Penalaran – Mode penalaran bawaan yang memungkinkan model berpikir langkah demi langkah sebelum menjawab.
- Konteks Panjang – Jendela konteks hingga 256 ribu token.
- Pemahaman Gambar – Deteksi objek, Penguraian Dokumen/PDF, pemahaman layar dan UI, pemahaman diagram, OCR (termasuk multibahasa), pengenalan tulisan tangan, dan penunjuk. Gambar dapat diproses pada rasio aspek dan resolusi variabel.
- Pemahaman Video – Menganalisis dan mendeskripsikan konten video dengan memproses urutan frame.
- Input Multimodal yang Disisipkan – Campur gambar, video, dan teks dalam satu perintah untuk penalaran yang sangat kontekstual.
- Panggilan Fungsi – Dukungan native untuk penggunaan alat terstruktur, sehingga memungkinkan alur kerja agen.
- Coding &Penalaran – Mampu membuat kode, menyelesaikan kode, dan melakukan penalaran logis langkah demi langkah.
- Multibahasa – Dukungan langsung untuk lebih dari 35 bahasa, yang dilatih sebelumnya dalam lebih dari 140 bahasa.
Praktik Terbaik
Untuk performa terbaik, gunakan konfigurasi dan praktik terbaik berikut:
1. Setelan Pengambilan Sampel Difusi
Gunakan konfigurasi pengambilan sampel standar berikut di semua kasus penggunaan:
- Metode: Pengambilan sampel difusi dengan Penghilangan Noise Terbatas Entropi dan Penghentian Adaptif.
- Konfigurasi Pengambilan Sampel:
- Jumlah Langkah Penghilangan Noise Maksimum = 48
- Jadwal suhu (untuk pembentukan logit): Peluruhan linear dari 0,8 → 0,4
- Pemilihan Token: Pada setiap langkah, sampler memilih token entropi terendah sehingga batas informasi timbal baliknya tetap di bawah batas entropi = 0,1
- Penghilangan Noise Token: Sampler sepenuhnya menghilangkan noise pada token yang tidak dipilih
- Penghentian Adaptif: Pengambilan sampel akan dihentikan lebih awal jika dan hanya jika kedua kondisi berikut terpenuhi secara bersamaan:
- Prediksi yang meyakinkan: Entropi model rata-rata di seluruh kanvas berada di bawah nilai minimum entropi = 0,005
- Prediksi yang stabil: Prediksi token probabilitas tertinggi tetap sama di dua langkah penghilangan noise berturut-turut
2. Konfigurasi Mode Penalaran
Mirip dengan model Gemma 4, kami menggunakan peran system, assistant, dan user standar. Untuk mengelola proses penalaran dengan benar, gunakan token kontrol berikut:
- Memicu Penalaran: Penalaran diaktifkan dengan menyertakan token
<|think|>di awal perintah sistem. Untuk menonaktifkan penalaran, hapus token (perhatikan bahwa saluran penalaran kosong mungkin masih ditampilkan). - Pembuatan Standar: Jika penalaran diaktifkan, model akan menampilkan
penalaran internalnya, diikuti dengan jawaban akhir menggunakan struktur ini:
<|channel>thought\n[Penalaran internal]<channel|>. - Perilaku Penalaran yang Dinonaktifkan: Jika penalaran dinonaktifkan, model akan
tetap membuat tag, tetapi dengan blok penalaran kosong:
<|channel>thought\n<channel|>[Jawaban akhir].
Perhatikan bahwa banyak library seperti transformer menangani kompleksitas template chat untuk Anda.
3. Percakapan Multi-Giliran
- Tidak Ada Konten Penalaran dalam Histori: Dalam percakapan multi-giliran, output model historis hanya boleh menyertakan respons akhir. Penalaran dari giliran model sebelumnya tidak boleh ditambahkan sebelum giliran pengguna berikutnya dimulai.
4. Urutan modalitas
- Untuk performa optimal dengan input multimodal, tempatkan konten gambar sebelum teks dalam perintah Anda.
5. Resolusi Gambar Variabel
Selain rasio aspek variabel, DiffusionGemma mendukung resolusi gambar variabel melalui anggaran token visual yang dapat dikonfigurasi, yang mengontrol jumlah token yang digunakan untuk merepresentasikan gambar. Anggaran token yang lebih tinggi mempertahankan detail visual yang lebih banyak dengan biaya komputasi tambahan, sedangkan anggaran yang lebih rendah memungkinkan inferensi yang lebih cepat untuk tugas yang tidak memerlukan pemahaman mendetail.
- Anggaran token yang didukung adalah: 70, 140, 280, 560, dan
1120.
- Gunakan anggaran yang lebih rendah untuk klasifikasi, keterangan gambar, atau pemahaman video, yang mana inferensi dan pemrosesan banyak frame yang lebih cepat lebih penting daripada detail mendetail.
- Gunakan anggaran yang lebih tinggi untuk tugas seperti OCR, penguraian dokumen, atau membaca teks kecil.
6. Durasi Video
Semua model mendukung input gambar dan dapat memproses video sebagai frame. Video mendukung maksimum 60 detik dengan asumsi gambar diproses pada satu frame per detik.
Data Model
Data yang digunakan untuk pelatihan model dan cara data diproses.
Set Data Pelatihan
Set data pra-pelatihan kami adalah koleksi data skala besar dan beragam yang mencakup berbagai domain dan modalitas, yang mencakup dokumen web, kode, gambar, audio, dengan tanggal cutoff Januari 2025. Berikut komponen utamanya:
- Dokumen Web: Koleksi teks web yang beragam memastikan model terpapar berbagai gaya linguistik, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 140 bahasa.
- Kode: Mengekspos model ke kode membantu model mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode dan memahami pertanyaan terkait kode.
- Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan menjawab kueri matematika.
- Gambar: Berbagai gambar memungkinkan model melakukan analisis gambar dan tugas ekstraksi data visual.
Kombinasi dari berbagai sumber data ini sangat penting untuk melatih model multimodal yang canggih yang dapat menangani berbagai tugas dan format data yang berbeda.
Pra-pemrosesan Data
Berikut metode pembersihan dan pemfilteran data utama yang diterapkan ke data pelatihan:
- Pemfilteran CSAM: Pemfilteran materi pelecehan seksual terhadap anak-anak (CSAM) yang ketat diterapkan pada beberapa tahap dalam proses persiapan data untuk memastikan pengecualian konten yang berbahaya dan ilegal.
- Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model pra-pelatihan Gemma aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
- Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.
Etika dan Keamanan
Karena model terbuka menjadi pusat infrastruktur perusahaan, asal-usul dan keamanan menjadi yang terpenting. Dikembangkan oleh Google DeepMind, DiffusionGemma menjalani evaluasi keamanan ketat yang sama dengan model Gemini eksklusif kami.
Pendekatan Evaluasi
DiffusionGemma dikembangkan dalam kemitraan dengan tim AI yang bertanggung jawab dan keamanan internal. Berbagai evaluasi otomatis dan manual dilakukan untuk membantu meningkatkan keamanan model. Evaluasi ini selaras dengan prinsip AI Google, serta kebijakan keamanan, yang bertujuan untuk mencegah model AI generatif kami membuat konten berbahaya, termasuk:
- Konten terkait materi dan eksploitasi pelecehan seksual terhadap anak-anak
- Konten berbahaya (misalnya, mempromosikan bunuh diri, atau memberikan petunjuk tentang aktivitas yang dapat menyebabkan bahaya di dunia nyata)
- Konten seksual vulgar
- Ujaran kebencian (misalnya, merendahkan anggota kelompok yang dilindungi)
- Pelecehan (misalnya, mendorong kekerasan terhadap orang lain)
Hasil Evaluasi
Untuk semua area pengujian keamanan, kami melihat peningkatan besar di semua kategori keamanan konten dibandingkan dengan model Gemma generasi sebelumnya. Secara keseluruhan, DiffusionGemma, seperti model Gemma 4, secara signifikan mengungguli model Gemma 3 dan 3n dalam meningkatkan keamanan, sekaligus menjaga penolakan yang tidak dapat dibenarkan tetap rendah. Semua pengujian dilakukan secara sengaja tanpa filter keamanan untuk mengevaluasi kemampuan mentah dan perilaku dasar model. Untuk teks-ke-teks dan gambar-ke-teks, serta di semua ukuran model, model ini menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan yang signifikan dibandingkan model Gemma sebelumnya.
Penggunaan dan Batasan
Model ini memiliki batasan tertentu yang harus diketahui pengguna.
Penggunaan yang Dimaksudkan
Model multimodal (yang mampu memproses penglihatan, bahasa, dan/atau audio) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan Konten dan Komunikasi
- Pembuatan Teks: Membuat format teks kreatif seperti puisi, skrip, kode, salinan pemasaran, dan draf email.
- Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Ringkasan Teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
- Ekstraksi Data Gambar: Mengekstrak, menafsirkan, dan meringkas data visual untuk komunikasi teks.
- Penelitian dan Pendidikan
- Penelitian Natural Language Processing (NLP) dan VLM: Berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM dan NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa yang interaktif, membantu koreksi tata bahasa, atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti menjelajahi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.
Batasan
- Data Pelatihan
- Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
- Konteks dan Kompleksitas Tugas
- Model ini memiliki performa yang baik pada tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau sangat kompleks mungkin akan sulit.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Ambiguitas dan Nuansa Bahasa
- Bahasa alami pada dasarnya kompleks. Model ini mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
- Akurasi Faktual
- Model ini menghasilkan respons berdasarkan informasi yang dipelajarinya dari set data pelatihan, tetapi bukan basis pengetahuan. Model ini dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
- Akal Sehat
- Model ini mengandalkan pola statistik dalam bahasa. Model ini mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
Pertimbangan dan Risiko Etis
Dalam membuat model bahasa penglihatan terbuka, kami telah mempertimbangkan hal berikut dengan cermat:
- Bias dan Keadilan
- VLM yang dilatih dengan data teks dan gambar dunia nyata skala besar dapat mencerminkan bias sosial budaya yang tertanam dalam materi pelatihan. DiffusionGemma menjalani pengawasan yang cermat, pra-pemrosesan data input, dan evaluasi pasca-pelatihan seperti yang dilaporkan dalam kartu ini untuk membantu mengurangi risiko bias ini.
- Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk membuat teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model, lihat Toolkit AI Generatif yang Bertanggung Jawab.
- Transparansi dan Akuntabilitas
- Kartu model ini meringkas detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasi:
- Pembuatan konten berbahaya: Mekanisme dan panduan untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis dan edukasi developer serta pengguna akhir dapat membantu mengurangi aplikasi VLM yang berbahaya. Referensi edukasi dan mekanisme pelaporan untuk pengguna menandai penyalahgunaan disediakan.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
- Pelestarian bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
Manfaat
Pada saat rilis, model ini adalah model bahasa penglihatan terbuka berperforma tinggi dan latensi rendah yang memberikan opsi menarik bagi developer dan mereka yang tertarik untuk meneliti model bahasa difusi. Model ini dirancang dari awal untuk pengembangan responsible AI dibandingkan dengan model berukuran serupa.