Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan model DiffusionGemma

DiffusionGemma adalah model terbuka eksperimental yang mengeksplorasi diffusion teks, pendekatan yang sangat cepat untuk pembuatan teks. Berdasarkan arsitektur Gemma 4 Mixture-of-Experts (MoE) 26B (4B aktif), DiffusionGemma menghasilkan token menggunakan diffusion diskrit. Model bobot terbuka ini bersifat multimodal, menangani input teks, gambar, dan video untuk menghasilkan output teks.

Dibangun berdasarkan fondasi MoE, DiffusionGemma dirancang untuk meningkatkan kecepatan pembuatan (token per detik) sekaligus tetap dapat di-deploy di berbagai lingkungan hardware. DiffusionGemma dibangun berdasarkan kemajuan arsitektur dan kemampuan Gemma 4, dengan memperkenalkan beberapa fitur inti:

Diffusion Teks Diskrit: Beralih dari pembuatan token kausal tradisional ke pengambilan sampel multi-kanvas autoregresif blok. Model ini menghasilkan teks dengan menghapus noise pada blok token ("kanvas") secara berulang-ulang secara paralel untuk meningkatkan kecepatan decoding secara signifikan.
Pemrosesan Multimodal: Secara native menerima input teks, gambar (dengan dukungan rasio aspek dan resolusi variabel), dan video. (Catatan: Input audio tidak didukung).
Arsitektur Encoder-Decoder: Menggunakan encoder autoregresif untuk memproses dan menyimpan konteks perintah dalam cache, dipadukan dengan penghapusan noise yang menerapkan perhatian dua arah pada kanvas pembuatan.
Efisiensi Mixture-of-Experts (MoE): Memanfaatkan desain MoE yang jarang berdasarkan varian MoE 26B (4B aktif), yang menawarkan kemampuan penalaran mendalam dengan overhead minimal. Saat dikuantisasi, model ini sesuai dengan batas VRAM 18 GB GPU konsumen, yang ideal untuk eksekusi lokal.
Mode Berpikir: Saluran penalaran bawaan yang dapat dikonfigurasi memungkinkan model berpikir langkah demi langkah sebelum mengeluarkan jawaban akhir.

Tradeoff dengan model tradisional

Meskipun model bahasa tradisional sangat efisien untuk deployment cloud skala besar karena dapat memproses ribuan permintaan secara batch, menjalankan model tersebut secara lokal untuk satu pengguna akan membuat hardware kurang dimanfaatkan. DiffusionGemma mengatasi masalah ini dengan membuat seluruh blok 256 token secara bersamaan, bukan satu token pada satu waktu, sehingga memaksimalkan performa hardware lokal.

Namun, pendekatan ini secara ketat ditujukan untuk konsumen, penggunaan lokal konkurensi rendah; karena decoding paralelnya menawarkan hasil yang semakin berkurang dalam beban kerja cloud QPS tinggi, keunggulan throughput paling kuat pada ukuran batch rendah hingga sedang pada satu akselerator.

Konfigurasi Penayangan yang Direkomendasikan

Untuk latensi dan kualitas yang optimal, sebaiknya lakukan deployment dengan parameter default berikut untuk Setelan Pengambilan Sampel Diffusion:

Parameter	Nilai yang direkomendasikan	Fungsi	Alasan
Jumlah Langkah Penghapusan Noise Maksimum	48	Batas atas jumlah langkah penghapusan noise per kanvas.	Batas yang aman untuk jumlah langkah penghapusan noise. Penghapusan noise akan berhenti dalam langkah yang lebih sedikit jika penghentian adaptif diaktifkan, biasanya 12-16 langkah, bergantung pada tugas.
Jadwal Suhu	Linear 0,8 -> 0,4	Jadwal penskalaan suhu yang dimulai dari tinggi dan berkurang sebagai fungsi langkah penghapusan noise.	Temperatur tinggi (0,8) mendorong eksplorasi awal; temperatur rendah (0,4) mengunci token akhir.
Penghentian Awal Adaptif	Batas entropi: 0,005	Menghentikan eksekusi lebih awal jika A) entropi model rata-rata di atas kanvas berada di bawah batas, dan B) jika dua prediksi penghapus noise berturut-turut tetap identik.	Perintah yang lebih sederhana dan tugas terstruktur seperti kode memerlukan lebih sedikit langkah penghapusan noise, sehingga memungkinkan kecepatan token per detik yang dinamis berdasarkan kompleksitas tugas.
Pemilihan token	Batas entropi: 0,1	Pada setiap langkah, sampler memilih token entropi terendah sehingga batas informasi timbal baliknya tetap berada di bawah batas entropi. Sampler sepenuhnya menghapus noise pada token yang tidak dipilih.	Memastikan hanya token yang relatif diyakini oleh model yang dipilih untuk menyempurnakan kanvas, sehingga token lainnya dapat disempurnakan pada langkah penghapusan noise berikutnya.

Dapatkan di Hugging Face Dapatkan di Kaggle Akses di Vertex

Akses bobot model eksperimental (dirilis di bawah lisensi Apache 2.0), yang memungkinkan Anda men-deploy-nya di project dan aplikasi Anda sendiri.

Pelajari arsitektur DiffusionGemma lebih lanjut Coba DiffusionGemma

Sesuaikan DiffusionGemma Deploy DiffusionGemma