Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan model Gemma 4

Gemma adalah serangkaian model AI generatif dan Anda dapat menggunakannya dalam berbagai tugas pembuatan, termasuk question answering, ringkasan, dan penalaran. Model Gemma disediakan dengan bobot terbuka dan mengizinkan penggunaan komersial yang bertanggung jawab, sehingga Anda dapat menyesuaikan dan men-deploy-nya dalam project dan aplikasi Anda sendiri.

Rangkaian model Gemma 4 mencakup empat arsitektur berbeda yang disesuaikan untuk persyaratan hardware tertentu:

Ukuran Kecil: Model parameter efektif 2B dan 4B yang dibuat untuk deployment ultra-seluler, edge, dan browser (misalnya, Pixel, Chrome).
Padat: Model padat parameter 31B yang canggih dan menjembatani kesenjangan antara performa tingkat server dan eksekusi lokal.
Mixture-of-Experts: Model MoE 26B yang sangat efisien dan dirancang untuk penalaran tingkat lanjut dengan throughput tinggi.
Terpadu: Model tanpa encoder parameter 12B untuk tugas multimodal, menggantikan encoder visi dan audio dengan proyeksi linear langsung dari input.

Anda dapat mendownload model Gemma 4 dari Kaggle dan Hugging Face. Untuk detail teknis selengkapnya tentang Gemma 4, lihat Kartu Model. Versi model inti Gemma sebelumnya juga tersedia untuk didownload. Untuk mengetahui informasi selengkapnya, lihat Model Gemma sebelumnya.

Download di Kaggle Download di Hugging Face

Kemampuan

Penalaran: Semua model dalam rangkaian ini dirancang sebagai alat penalaran yang sangat mumpuni, dengan mode berpikir yang dapat dikonfigurasi.
Multimodalitas yang Diperluas: Memproses Teks, Gambar dengan dukungan rasio aspek variabel dan resolusi (semua model), Video, dan Audio (ditampilkan secara native di model E2B, E4B dan 12B).
Jendela Konteks yang Lebih Besar: Model kecil memiliki jendela konteks 128K, sedangkan model sedang mendukung 256K.
Kemampuan Pengkodean &Agen yang Ditingkatkan: Mencapai peningkatan yang signifikan dalam tolok ukur pengkodean bersama dengan dukungan panggilan fungsi bawaan, yang mendukung agen otonom yang sangat mumpuni.
Dukungan Prompt Sistem Native: Gemma 4 memperkenalkan dukungan bawaan untuk peran sistem, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
Prediksi Multi-Token: Semua model Gemma 4 (E2B, E4B, 12B, 31B, dan 26B A4B) menyertakan model draf khusus untuk decoding spekulatif, sehingga memungkinkan inferensi yang jauh lebih cepat tanpa kehilangan kualitas.

Ukuran parameter dan kuantisasi

Model Gemma 4 tersedia dalam 5 ukuran parameter: E2B, E4B, 12B, 31B, dan 26B A4B. Model ini dapat digunakan dengan presisi default (16-bit) atau dengan presisi yang lebih rendah menggunakan kuantisasi. Ukuran dan presisi yang berbeda mewakili serangkaian kompromi untuk aplikasi AI Anda. Model dengan parameter dan jumlah bit yang lebih tinggi (presisi yang lebih tinggi) umumnya lebih mumpuni, tetapi lebih mahal untuk dijalankan dalam hal siklus pemrosesan, biaya memori, dan konsumsi daya. Model dengan parameter dan jumlah bit yang lebih rendah (presisi yang lebih rendah) memiliki kemampuan yang lebih sedikit, tetapi mungkin cukup untuk tugas AI Anda.

Persyaratan Memori Inferensi Gemma 4

Tabel berikut menjelaskan persyaratan memori GPU atau TPU perkiraan untuk menjalankan inferensi dengan setiap ukuran versi model Gemma 4.

Parameter	BF16 (16-bit)	SFP8 (8-bit)	Q4_0 (4-bit)	Seluler	Seluler (Khusus teks)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tabel 1. Perkiraan memori GPU atau TPU yang diperlukan untuk memuat model Gemma 4 berdasarkan jumlah parameter, tingkat kuantisasi, dan overhead 20% untuk memuat hal-hal tambahan. Versi seluler menggunakan LiteRT-LM.

Pertimbangan Utama untuk Perencanaan Memori

Arsitektur Efisien (E2B dan E4B): "E" adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Per-Layer Embeddings (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan ke model, PLE memberi setiap lapisan dekoder embedding kecilnya sendiri untuk setiap token. Tabel embedding ini besar, tetapi hanya digunakan untuk pencarian cepat, itulah sebabnya total memori yang diperlukan untuk memuat bobot statis lebih tinggi daripada yang disarankan oleh jumlah parameter efektif.
Arsitektur MoE (26B A4B): 26B adalah model Mixture of Experts. Meskipun hanya mengaktifkan 4 miliar parameter per token selama pembuatan, semua 26 miliar parameter harus dimuat ke dalam memori untuk mempertahankan kecepatan perutean dan inferensi yang cepat. Itulah sebabnya persyaratan memori dasarnya jauh lebih dekat dengan model padat 26B daripada model 4B.
Hanya Bobot Dasar: Perkiraan dalam tabel sebelumnya hanya memperhitungkan memori yang diperlukan untuk memuat bobot model statis. Perkiraan tersebut tidak mencakup VRAM tambahan yang diperlukan untuk mendukung software atau jendela konteks.
Jendela Konteks (Cache KV): Konsumsi memori akan meningkat secara dinamis berdasarkan jumlah total token dalam perintah dan respons yang dihasilkan. Jendela konteks yang lebih besar memerlukan VRAM yang jauh lebih banyak di atas bobot model dasar.
Overhead Penyesuaian: Persyaratan memori untuk menyesuaikan model Gemma jauh lebih tinggi daripada untuk inferensi standar. Jejak yang tepat akan sangat bergantung pada framework pengembangan, ukuran batch, dan apakah Anda menggunakan penyesuaian presisi penuh atau metode Parameter-Efficient Fine-Tuning (PEFT) seperti Low-Rank Adaptation (LoRA).

Pelatihan yang Memperhatikan Kuantisasi (QAT)

Untuk deployment yang memerlukan efisiensi maksimum dengan kompromi kualitas minimal, Gemma menawarkan model Pelatihan yang Memperhatikan Kuantisasi (QAT) resmi.

Tidak seperti Kuantisasi Pasca-Pelatihan (PTQ) standar, yang mengompresi model yang sepenuhnya terlatih dan dapat menyebabkan penurunan kualitas, QAT mengintegrasikan simulasi kuantisasi ke dalam proses pelatihan itu sendiri. Hal ini memungkinkan model untuk belajar mengompensasi kehilangan presisi, sehingga menghasilkan model yang lebih kecil yang berperforma hampir sama dengan baseline presisi tinggi.

Tabel Perutean Cepat

Mesin Deployment Target	Akhiran Download	Kasus Penggunaan Utama
llama.cpp / LM Studio (Lokal)	`{model-name}-qat-q4_0-gguf`	Deployment lokal tanpa penyiapan di CPU, Apple Silicon, atau GPU konsumen.
vLLM / SGLang	SERVER: `{model-name}-qat-w4a16-ct` MOBILE: `{model-name}-qat-mobile-ct`	Inferensi throughput tinggi yang menggunakan bobot 4-bit dengan aktivasi 16-bit.
Decoding Spekulatif	MODEL: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	Menjalankan model utama bersama model draf MTP yang cocok untuk mempercepat pembuatan token secara drastis. Model harus dikuantisasi.
Format lainnya	`{model-name}-qat-q4_0-unquantized`	Bobot yang tidak dikuantisasi untuk dikonversi ke format lain (misalnya MLX)
Deployment Seluler (Transformer)	`{model-name}-qat-mobile-transformers`	Bobot edge yang dioptimalkan untuk kasus penggunaan seluler. Bobot ini berfungsi sebagai referensi untuk format lain.

Koleksi QAT resmi di Hugging Face

collections/google/gemma-4-qat-q4-0
- Checkpoint QAT yang Tidak Dikuantisasi (-unquantized / -assistant): Bobot presisi setengah yang diekstrak langsung dari pipeline QAT. Bobot ini ideal untuk kompilasi hilir kustom, riset, atau menjalankan decoding spekulatif menggunakan model draf asisten. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B.
- GGUF (-gguf): Checkpoint tersedia untuk kompatibilitas drop-in langsung di seluruh ekosistem LLM lokal. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B.
- Tensor Terkompresi (-w4a16-ct): Diserialisasi secara native dalam standar compressed-tensors untuk layanan cloud yang dioptimalkan dan konkurensi tinggi. Tersedia untuk Gemma 4 E2B, E4B, 12B, dan 31B.
collections/google/gemma-4-qat-mobile
- Dioptimalkan untuk Seluler (-mobile-transformers / -mobile-ct): Dibangun pada skema wNa8o8 kustom yang direkayasa khusus untuk batas hardware seluler. Skema ini menggunakan lapisan decoding 2-bit yang ditargetkan, cache KV yang dioptimalkan, dan aktivasi statis untuk memaksimalkan penghematan RAM di perangkat tanpa membebani prosesor edge. Tersedia untuk Gemma 4 E2B dan E4B.

Semua checkpoint QAT Gemma 4 resmi juga dapat diakses langsung dari Kaggle.

Model Gemma sebelumnya

Anda dapat menggunakan model Gemma generasi sebelumnya, yang juga tersedia dari Kaggle dan Hugging Face. Untuk detail teknis selengkapnya tentang model Gemma sebelumnya, lihat halaman kartu model berikut:

Kartu Model Gemma 3 Model
Kartu Model Gemma 2
Kartu Model Gemma 1 Model

Siap untuk mulai membangun solusi? Mulai menggunakan model Gemma.