Gemma adalah serangkaian model AI generatif dan Anda dapat menggunakannya dalam berbagai tugas pembuatan, termasuk question answering, ringkasan, dan penalaran. Model Gemma disediakan dengan bobot terbuka dan mengizinkan penggunaan komersial yang bertanggung jawab, sehingga Anda dapat menyesuaikan dan men-deploy-nya dalam project dan aplikasi Anda sendiri.
Rangkaian model Gemma 4 mencakup empat arsitektur berbeda yang disesuaikan untuk persyaratan hardware tertentu:
- Ukuran Kecil: Model parameter efektif 2B dan 4B yang dibuat untuk deployment ultra-seluler, edge, dan browser (misalnya, Pixel, Chrome).
- Padat: Model padat parameter 31B yang canggih dan menjembatani kesenjangan antara performa tingkat server dan eksekusi lokal.
- Mixture-of-Experts: Model MoE 26B yang sangat efisien dan dirancang untuk penalaran tingkat lanjut dengan throughput tinggi.
- Terpadu: Model tanpa encoder parameter 12B untuk tugas multimodal, menggantikan encoder visi dan audio dengan proyeksi linear langsung dari input.
Anda dapat mendownload model Gemma 4 dari Kaggle dan Hugging Face. Untuk detail teknis selengkapnya tentang Gemma 4, lihat Kartu Model. Versi model inti Gemma sebelumnya juga tersedia untuk didownload. Untuk mengetahui informasi selengkapnya, lihat Model Gemma sebelumnya.
Download di Kaggle Download di Hugging Face
Kemampuan
- Penalaran: Semua model dalam rangkaian ini dirancang sebagai alat penalaran yang sangat mumpuni, dengan mode berpikir yang dapat dikonfigurasi.
- Multimodalitas yang Diperluas: Memproses Teks, Gambar dengan dukungan rasio aspek variabel dan resolusi (semua model), Video, dan Audio (ditampilkan secara native di model E2B, E4B dan 12B).
- Jendela Konteks yang Lebih Besar: Model kecil memiliki jendela konteks 128K, sedangkan model sedang mendukung 256K.
- Kemampuan Pengkodean &Agen yang Ditingkatkan: Mencapai peningkatan yang signifikan dalam tolok ukur pengkodean bersama dengan dukungan panggilan fungsi bawaan, yang mendukung agen otonom yang sangat mumpuni.
- Dukungan Prompt Sistem Native: Gemma 4 memperkenalkan dukungan bawaan untuk peran sistem, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
- Prediksi Multi-Token: Semua model Gemma 4 (E2B, E4B, 12B, 31B, dan 26B A4B) menyertakan model draf khusus untuk decoding spekulatif, sehingga memungkinkan inferensi yang jauh lebih cepat tanpa kehilangan kualitas.
Ukuran parameter dan kuantisasi
Model Gemma 4 tersedia dalam 5 ukuran parameter: E2B, E4B, 12B, 31B, dan 26B A4B. Model ini dapat digunakan dengan presisi default (16-bit) atau dengan presisi yang lebih rendah menggunakan kuantisasi. Ukuran dan presisi yang berbeda mewakili serangkaian kompromi untuk aplikasi AI Anda. Model dengan parameter dan jumlah bit yang lebih tinggi (presisi yang lebih tinggi) umumnya lebih mumpuni, tetapi lebih mahal untuk dijalankan dalam hal siklus pemrosesan, biaya memori, dan konsumsi daya. Model dengan parameter dan jumlah bit yang lebih rendah (presisi yang lebih rendah) memiliki kemampuan yang lebih sedikit, tetapi mungkin cukup untuk tugas AI Anda.
Persyaratan Memori Inferensi Gemma 4
Tabel berikut menjelaskan persyaratan memori GPU atau TPU perkiraan untuk menjalankan inferensi dengan setiap ukuran versi model Gemma 4.
| Parameter | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) | Seluler | Seluler (Khusus teks) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11,4 GB | 5,7 GB | 2,9 GB | 1,1 GB | 0,84 GB |
| Gemma 4 E4B | 17,9 GB | 8,9 GB | 4,5 GB | 2,5 GB | 2,2 GB |
| Gemma 4 12B | 26,7 GB | 13,4 GB | 6,7 GB | - | - |
| Gemma 4 26B A4B | 57,7 GB | 28,8 GB | 14,4 GB | - | - |
| Gemma 4 31B | 69,9 GB | 34,9 GB | 17,5 GB | - | - |
Tabel 1. Perkiraan memori GPU atau TPU yang diperlukan untuk memuat model Gemma 4 berdasarkan jumlah parameter, tingkat kuantisasi, dan overhead 20% untuk memuat hal-hal tambahan. Versi seluler menggunakan LiteRT-LM.
Pertimbangan Utama untuk Perencanaan Memori
- Arsitektur Efisien (E2B dan E4B): "E" adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Per-Layer Embeddings (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan ke model, PLE memberi setiap lapisan dekoder embedding kecilnya sendiri untuk setiap token. Tabel embedding ini besar, tetapi hanya digunakan untuk pencarian cepat, itulah sebabnya total memori yang diperlukan untuk memuat bobot statis lebih tinggi daripada yang disarankan oleh jumlah parameter efektif.
- Arsitektur MoE (26B A4B): 26B adalah model Mixture of Experts. Meskipun hanya mengaktifkan 4 miliar parameter per token selama pembuatan, semua 26 miliar parameter harus dimuat ke dalam memori untuk mempertahankan kecepatan perutean dan inferensi yang cepat. Itulah sebabnya persyaratan memori dasarnya jauh lebih dekat dengan model padat 26B daripada model 4B.
- Hanya Bobot Dasar: Perkiraan dalam tabel sebelumnya hanya memperhitungkan memori yang diperlukan untuk memuat bobot model statis. Perkiraan tersebut tidak mencakup VRAM tambahan yang diperlukan untuk mendukung software atau jendela konteks.
- Jendela Konteks (Cache KV): Konsumsi memori akan meningkat secara dinamis berdasarkan jumlah total token dalam perintah dan respons yang dihasilkan. Jendela konteks yang lebih besar memerlukan VRAM yang jauh lebih banyak di atas bobot model dasar.
- Overhead Penyesuaian: Persyaratan memori untuk menyesuaikan model Gemma jauh lebih tinggi daripada untuk inferensi standar. Jejak yang tepat akan sangat bergantung pada framework pengembangan, ukuran batch, dan apakah Anda menggunakan penyesuaian presisi penuh atau metode Parameter-Efficient Fine-Tuning (PEFT) seperti Low-Rank Adaptation (LoRA).
Pelatihan yang Memperhatikan Kuantisasi (QAT)
Untuk deployment yang memerlukan efisiensi maksimum dengan kompromi kualitas minimal, Gemma menawarkan model Pelatihan yang Memperhatikan Kuantisasi (QAT) resmi.
Tidak seperti Kuantisasi Pasca-Pelatihan (PTQ) standar, yang mengompresi model yang sepenuhnya terlatih dan dapat menyebabkan penurunan kualitas, QAT mengintegrasikan simulasi kuantisasi ke dalam proses pelatihan itu sendiri. Hal ini memungkinkan model untuk belajar mengompensasi kehilangan presisi, sehingga menghasilkan model yang lebih kecil yang berperforma hampir sama dengan baseline presisi tinggi.
Tabel Perutean Cepat
| Mesin Deployment Target | Akhiran Download | Kasus Penggunaan Utama |
|---|---|---|
| llama.cpp / LM Studio (Lokal) | {model-name}-qat-q4_0-gguf |
Deployment lokal tanpa penyiapan di CPU, Apple Silicon, atau GPU konsumen. |
| vLLM / SGLang | SERVER: {model-name}-qat-w4a16-ctMOBILE: {model-name}-qat-mobile-ct |
Inferensi throughput tinggi yang menggunakan bobot 4-bit dengan aktivasi 16-bit. |
| Decoding Spekulatif | MODEL: {model-name}-qat-q4_0-unquantizedDRAFTER: {model-name}-qat-q4_0-unquantized-assistant |
Menjalankan model utama bersama model draf MTP yang cocok untuk mempercepat pembuatan token secara drastis. Model harus dikuantisasi. |
| Format lainnya | {model-name}-qat-q4_0-unquantized |
Bobot yang tidak dikuantisasi untuk dikonversi ke format lain (misalnya MLX) |
| Deployment Seluler (Transformer) | {model-name}-qat-mobile-transformers |
Bobot edge yang dioptimalkan untuk kasus penggunaan seluler. Bobot ini berfungsi sebagai referensi untuk format lain. |
Koleksi QAT resmi di Hugging Face
- collections/google/gemma-4-qat-q4-0
- Checkpoint QAT yang Tidak Dikuantisasi (
-unquantized/-assistant): Bobot presisi setengah yang diekstrak langsung dari pipeline QAT. Bobot ini ideal untuk kompilasi hilir kustom, riset, atau menjalankan decoding spekulatif menggunakan model draf asisten. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B. - GGUF (
-gguf): Checkpoint tersedia untuk kompatibilitas drop-in langsung di seluruh ekosistem LLM lokal. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B. - Tensor Terkompresi (
-w4a16-ct): Diserialisasi secara native dalam standarcompressed-tensorsuntuk layanan cloud yang dioptimalkan dan konkurensi tinggi. Tersedia untuk Gemma 4 E2B, E4B, 12B, dan 31B.
- Checkpoint QAT yang Tidak Dikuantisasi (
- collections/google/gemma-4-qat-mobile
- Dioptimalkan untuk Seluler (
-mobile-transformers/-mobile-ct): Dibangun pada skemawNa8o8kustom yang direkayasa khusus untuk batas hardware seluler. Skema ini menggunakan lapisan decoding 2-bit yang ditargetkan, cache KV yang dioptimalkan, dan aktivasi statis untuk memaksimalkan penghematan RAM di perangkat tanpa membebani prosesor edge. Tersedia untuk Gemma 4 E2B dan E4B.
- Dioptimalkan untuk Seluler (
Semua checkpoint QAT Gemma 4 resmi juga dapat diakses langsung dari Kaggle.
Model Gemma sebelumnya
Anda dapat menggunakan model Gemma generasi sebelumnya, yang juga tersedia dari Kaggle dan Hugging Face. Untuk detail teknis selengkapnya tentang model Gemma sebelumnya, lihat halaman kartu model berikut:
- Kartu Model Gemma 3 Model
- Kartu Model Gemma 2
- Kartu Model Gemma 1 Model
Siap untuk mulai membangun solusi? Mulai menggunakan model Gemma.