Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Ringkasan model Gemma 4

Gemma adalah serangkaian model kecerdasan buatan generatif dan Anda dapat menggunakannya dalam berbagai tugas pembuatan, termasuk question answering, peringkasan, dan penalaran. Model Gemma disediakan dengan bobot terbuka dan memungkinkan penggunaan komersial yang bertanggung jawab, sehingga Anda dapat menyesuaikan dan men-deploy-nya dalam proyek dan aplikasi Anda sendiri.

Rangkaian model Gemma 4 mencakup empat arsitektur berbeda yang disesuaikan untuk persyaratan hardware tertentu:

Ukuran Kecil: Model parameter efektif 2B dan 4B yang dibuat untuk deployment ultra-mobile, edge, dan browser (misalnya, Pixel, Chrome).
Padat (Dense): Model padat dengan 31 miliar parameter yang canggih yang menjembatani kesenjangan antara performa tingkat server dan eksekusi lokal.
Mixture-of-Experts: Model MoE 26B yang sangat efisien dan dirancang untuk penalaran canggih dengan throughput tinggi.
Terpadu: Model encoder gratis dengan parameter 12B untuk tugas multimodal, menggantikan encoder audio dan visi dengan proyeksi linear langsung dari input.

Anda dapat mendownload model Gemma 4 dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang Gemma 4, lihat Kartu Model dan Laporan Teknis. Model inti Gemma versi sebelumnya juga tersedia untuk didownload. Untuk mengetahui informasi selengkapnya, lihat Model Gemma sebelumnya.

Dapatkan di Kaggle Dapatkan di Hugging Face

Kemampuan

Alasan: Semua model dalam keluarga ini didesain sebagai sistem penalaran yang sangat mumpuni, dengan mode berpikir yang dapat dikonfigurasi.
Multimodalitas yang Diperluas: Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B, E4B, dan 12B).
Jendela Konteks yang Lebih Besar: Model kecil memiliki jendela konteks 128K, sedangkan model sedang mendukung 256K.
Kemampuan Coding & Agen yang Ditingkatkan: Mencapai peningkatan yang signifikan dalam tolok ukur coding bersama dengan dukungan panggilan fungsi bawaan, yang mendukung agen otonom yang sangat mumpuni.
Dukungan Perintah Sistem Native: Gemma 4 memperkenalkan dukungan bawaan untuk peran sistem, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
Prediksi Multi-Token: Semua model Gemma 4 (E2B, E4B, 12B, 31B, dan 26B A4B) menyertakan model draf khusus untuk dekoding spekulatif, sehingga memungkinkan inferensi yang jauh lebih cepat tanpa kehilangan kualitas.

Ukuran dan kuantisasi parameter

Model Gemma 4 tersedia dalam 5 ukuran parameter: E2B, E4B, 12B, 31B, dan 26B A4B. Model dapat digunakan dengan presisi defaultnya (16-bit) atau dengan presisi yang lebih rendah menggunakan kuantisasi. Berbagai ukuran dan presisi ini mewakili serangkaian pertimbangan untuk aplikasi AI Anda. Model dengan parameter dan jumlah bit yang lebih tinggi (presisi yang lebih tinggi) umumnya lebih mumpuni, tetapi lebih mahal untuk dijalankan dalam hal siklus pemrosesan, biaya memori, dan konsumsi daya. Model dengan jumlah parameter dan bit yang lebih rendah (presisi lebih rendah) memiliki kemampuan yang lebih sedikit, tetapi mungkin cukup untuk tugas AI Anda.

Persyaratan Memori Inferensi Gemma 4

Tabel berikut menguraikan perkiraan persyaratan memori GPU atau TPU untuk menjalankan inferensi dengan setiap ukuran versi model Gemma 4.

Parameter	BF16 (16-bit)	SFP8 (8-bit)	Q4_0 (4-bit)	Seluler	Seluler (Khusus Teks)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tabel 1. Perkiraan memori GPU atau TPU yang diperlukan untuk memuat model Gemma 4 berdasarkan jumlah parameter, tingkat kuantisasi, dan overhead 20% untuk memuat item tambahan. Versi seluler menggunakan LiteRT-LM.

Pertimbangan Utama untuk Perencanaan Memori

Arsitektur Efisien (E2B dan E4B): "E" adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel penyematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat. Itulah sebabnya total memori yang diperlukan untuk memuat bobot statis lebih tinggi daripada yang ditunjukkan oleh jumlah parameter efektif.
Arsitektur MoE (26B A4B): 26B adalah model Mixture of Experts. Meskipun hanya mengaktifkan 4 miliar parameter per token selama generasi, semua 26 miliar parameter harus dimuat ke dalam memori untuk mempertahankan kecepatan perutean dan inferensi yang cepat. Inilah alasan persyaratan memori dasarnya jauh lebih dekat dengan model 26B padat daripada model 4B.
Hanya Bobot Dasar: Perkiraan dalam tabel sebelumnya hanya memperhitungkan memori yang diperlukan untuk memuat bobot model statis. GPU ini tidak menyertakan VRAM tambahan yang diperlukan untuk mendukung software atau jendela konteks.
Jendela Konteks (Cache KV): Konsumsi memori akan meningkat secara dinamis berdasarkan jumlah total token dalam perintah Anda dan respons yang dihasilkan. Jendela konteks yang lebih besar memerlukan VRAM yang jauh lebih besar di samping bobot model dasar.
Overhead Penyesuaian: Persyaratan memori untuk penyesuaian model Gemma jauh lebih tinggi daripada untuk inferensi standar. Jejak persis Anda akan sangat bergantung pada framework pengembangan, ukuran batch, dan apakah Anda menggunakan penyesuaian presisi penuh atau metode Parameter-Efficient Fine-Tuning (PEFT) seperti Low-Rank Adaptation (LoRA).

Pelatihan yang Sadar Kuantisasi (QAT)

Untuk deployment yang memerlukan efisiensi maksimum dengan kompromi kualitas minimal, Gemma menawarkan model Pelatihan yang Sadar Kuantisasi (QAT) resmi.

Tidak seperti Kuantisasi Pasca-Pelatihan (PTQ) standar, yang memadatkan model yang terlatih sepenuhnya dan dapat menyebabkan penurunan kualitas, QAT mengintegrasikan simulasi kuantisasi ke dalam proses pelatihan itu sendiri. Hal ini memungkinkan model mempelajari cara mengompensasi kehilangan presisi, sehingga menghasilkan model yang lebih kecil dan berperforma hampir identik dengan dasar presisi tingginya.

Tabel Perutean Cepat

Mesin Deployment Target	Download Akhiran	Kasus Penggunaan Utama
llama.cpp / LM Studio (Lokal)	`{model-name}-qat-q4_0-gguf`	Deployment lokal tanpa penyiapan di CPU, Apple Silicon, atau GPU konsumen.
vLLM / SGLang	SERVER: `{model-name}-qat-w4a16-ct` SELULER: `{model-name}-qat-mobile-ct`	Inferensi throughput tinggi yang memanfaatkan bobot 4-bit dengan aktivasi 16-bit.
Dekode Spekulatif	MODEL: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	Menjalankan model utama bersama dengan model draf MTP yang cocok untuk mempercepat pembuatan token secara drastis. Model harus dikuantisasi.
Format lainnya	`{model-name}-qat-q4_0-unquantized`	Bobot yang tidak dikuantisasi untuk mengonversi ke format lain (misalnya, MLX)
Deployment Seluler (Transformer)	`{model-name}-qat-mobile-transformers`	Bobot tepi dioptimalkan untuk kasus penggunaan seluler. Format ini berfungsi sebagai referensi untuk format lainnya.

Koleksi QAT resmi di Hugging Face

collections/google/gemma-4-qat-q4-0
- Checkpoint QAT yang Tidak Dikuantisasi (-unquantized / -assistant): Bobot presisi setengah yang diekstrak langsung dari pipeline QAT. Model ini ideal untuk kompilasi hilir kustom, riset, atau menjalankan decoding spekulatif menggunakan model draf asisten. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B.
- GGUF (-gguf): Checkpoint tersedia untuk kompatibilitas langsung di seluruh ekosistem LLM lokal. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B.
- Tensor Terkompresi (-w4a16-ct): Diserialkan secara native dalam standar compressed-tensors untuk penayangan cloud dengan konkurensi tinggi yang dioptimalkan. Tersedia untuk Gemma 4 E2B, E4B, 12B, dan 31B.
collections/google/gemma-4-qat-mobile
- Dioptimalkan untuk Seluler (-mobile-transformers / -mobile-ct): Dibuat berdasarkan skema wNa8o8 kustom yang dirancang khusus untuk batas hardware seluler. Fitur ini menggunakan lapisan decoding 2-bit yang ditargetkan, cache KV yang dioptimalkan, dan aktivasi statis untuk memaksimalkan penghematan RAM di perangkat tanpa membebani prosesor edge. Tersedia untuk Gemma 4 E2B dan E4B.

Semua titik pemeriksaan QAT resmi Gemma 4 juga dapat diakses langsung dari Kaggle.

Model Gemma sebelumnya

Anda dapat menggunakan model Gemma generasi sebelumnya, yang juga tersedia dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang model Gemma sebelumnya, lihat halaman kartu model berikut:

Kartu Model Gemma 3
Kartu Model Gemma 2
Kartu Model Gemma 1

Siap untuk mulai membangun solusi? Mulai menggunakan model Gemma.