Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mempercepat Gemma 4 dengan Prediksi Multi-Token

Di Gemma 4, Prediksi Multi-Token (MTP) adalah arsitektur khusus yang digunakan untuk mengaktifkan Dekode Spekulatif yang sangat efisien. Dekode spekulatif adalah teknik untuk mempercepat inferensi dalam model bahasa besar. Daripada hanya mengandalkan model target besar untuk menghasilkan token secara autoregresif (menghasilkan satu token dalam satu waktu, dengan setiap token baru bergantung pada token sebelumnya), 'model draf' yang lebih kecil dan cepat memprediksi beberapa token di depan. Model target kemudian memverifikasi token yang dibuat ini secara paralel. Jika model target menolak token draf, model tersebut tetap menghasilkan token yang benar untuk posisi tersebut (memastikan langkah tersebut tidak sia-sia), dan model draf melanjutkan prediksi dari token baru yang benar tersebut.

Gemma 4 mengimplementasikan MTP dengan memperluas model dasar menggunakan model draf yang lebih kecil dan lebih cepat ini. Model draf ini tidak independen karena berbagi tabel penyematan input dengan model target dan dibangun langsung berdasarkan aktivasi lapisan terakhirnya. Hal ini menghasilkan peningkatan kecepatan decoding yang signifikan sekaligus menjamin kualitas yang sama persis dengan pembuatan autoregresif standar, sehingga titik pemeriksaan ini sempurna untuk aplikasi latensi rendah dan di perangkat.

Dekode spekulatif berfungsi dengan menyusun beberapa token dan memverifikasinya dalam satu penerusan. Untuk model padat, bobot yang sama digunakan untuk setiap token, sehingga memverifikasi beberapa token yang drafnya sudah dibuat akan menambah overhead minimal. Model Mixture of Experts (MoE) seperti Gemma 4 26B A4B berfungsi secara berbeda. Setiap token dapat mengaktifkan pakar yang berbeda, sehingga memverifikasi token yang dibuat draf dapat memerlukan pemuatan bobot pakar tambahan dari memori, yang mengimbangi keuntungan dari pembuatan draf. Pada ukuran batch yang lebih besar, biasanya ada lebih banyak tumpang-tindih pada pakar yang diaktifkan di seluruh urutan, sehingga meningkatkan penggunaan kembali bobot yang dimuat. Pada ukuran batch 1, tumpang-tindih ini terbatas, itulah sebabnya draf A4B 26B mungkin tidak menghasilkan peningkatan kecepatan pada platform hardware tanpa paralelisme yang baik.

Peningkatan MTP

Gemma 4 memperkenalkan beberapa peningkatan pada pipeline decoding spekulatif standar untuk meningkatkan kualitas token yang draf dan efisiensi:

Embedding Input Bersama: Model draf berbagi tabel embedding input dengan model target.
Aktivasi Target: Model draf menggunakan aktivasi dari lapisan terakhir model target, menggabungkannya dengan sematan token, dan memproyeksikannya ke bawah ke dimensi model draf.
Embedder Efisien: Untuk menghindari operasi prediksi yang mahal di seluruh kosakata, model mengelompokkan token serupa ke dalam cluster. Pertama-tama, model mengidentifikasi cluster yang paling mungkin, lalu membatasi penghitungan akhir hanya pada token dalam cluster yang dipilih tersebut (khusus E2B dan E4B).