Gemma adalah serangkaian model AI generatif dan Anda dapat menggunakannya dalam berbagai tugas pembuatan, termasuk question answering, peringkasan, dan penalaran. Model Gemma disediakan dengan bobot terbuka dan memungkinkan penggunaan komersial yang bertanggung jawab, sehingga Anda dapat menyesuaikan dan men-deploy-nya dalam proyek dan aplikasi Anda sendiri.
Rangkaian model Gemma 4 mencakup empat arsitektur berbeda yang disesuaikan untuk persyaratan hardware tertentu:
- Ukuran Kecil: Model parameter efektif 2B dan 4B yang dibuat untuk deployment ultra-mobile, edge, dan browser (misalnya, Pixel, Chrome).
- Padat: Model padat dengan parameter 31B yang tangguh dan menjembatani kesenjangan antara performa tingkat server dan eksekusi lokal.
- Mixture-of-Experts: Model MoE 26B yang sangat efisien dan dirancang untuk penalaran canggih dengan throughput tinggi.
- Terpadu: Model encoder gratis dengan parameter 12B untuk tugas multimodal, menggantikan encoder audio dan visi dengan proyeksi linear langsung dari input.
Anda dapat mendownload model Gemma 4 dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang Gemma 4, lihat Kartu Model. Model inti Gemma versi sebelumnya juga tersedia untuk didownload. Untuk mengetahui informasi selengkapnya, lihat Model Gemma sebelumnya.
Dapatkan di Kaggle Dapatkan di Hugging Face
Kemampuan
- Penalaran: Semua model dalam keluarga ini didesain sebagai model penalaran yang sangat mumpuni, dengan mode berpikir yang dapat dikonfigurasi.
- Multimodalitas yang Diperluas: Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B, E4B, dan 12B).
- Jendela Konteks yang Lebih Besar: Model kecil memiliki jendela konteks 128K, sedangkan model sedang mendukung 256K.
- Kemampuan Coding & Agen yang Ditingkatkan: Mencapai peningkatan yang signifikan dalam tolok ukur coding bersama dengan dukungan panggilan fungsi bawaan, yang mendukung agen otonom yang sangat mumpuni.
- Dukungan Prompt Sistem Native: Gemma 4 memperkenalkan dukungan bawaan untuk peran sistem, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
- Prediksi Multi-Token: Semua model Gemma 4 (E2B, E4B, 12B, 31B, dan 26B A4B) menyertakan model draf khusus untuk decoding spekulatif, sehingga memungkinkan inferensi yang jauh lebih cepat tanpa kehilangan kualitas.
Ukuran dan kuantisasi parameter
Model Gemma 4 tersedia dalam 5 ukuran parameter: E2B, E4B, 12B, 31B, dan 26B A4B. Model dapat digunakan dengan presisi defaultnya (16-bit) atau dengan presisi yang lebih rendah menggunakan kuantisasi. Berbagai ukuran dan presisi ini mewakili serangkaian pertimbangan untuk aplikasi AI Anda. Model dengan parameter dan jumlah bit yang lebih tinggi (presisi yang lebih tinggi) umumnya lebih mumpuni, tetapi lebih mahal untuk dijalankan dalam hal siklus pemrosesan, biaya memori, dan konsumsi daya. Model dengan jumlah parameter dan bit yang lebih rendah (presisi lebih rendah) memiliki kemampuan yang lebih sedikit, tetapi mungkin cukup untuk tugas AI Anda.
Persyaratan Memori Inferensi Gemma 4
Tabel berikut menguraikan perkiraan persyaratan memori GPU atau TPU untuk menjalankan inferensi dengan setiap ukuran versi model Gemma 4.
| Parameter | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) | Seluler | Seluler (Khusus Teks) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11,4 GB | 5,7 GB | 2,9 GB | 1.1 BG | 0,84 GB |
| Gemma 4 E4B | 17,9 GB | 8,9 GB | 4,5 GB | 2,5 GB | 2,2 GB |
| Gemma 4 12B | 26,7 GB | 13,4 GB | 6,7 GB | - | - |
| Gemma 4 26B A4B | 57,7 GB | 28,8 GB | 14,4 GB | - | - |
| Gemma 4 31B | 69,9 GB | 34,9 GB | 17,5 GB | - | - |
Tabel 1. Perkiraan memori GPU atau TPU yang diperlukan untuk memuat model Gemma 4 berdasarkan jumlah parameter, tingkat kuantisasi, dan overhead 20% untuk memuat item tambahan. Versi seluler menggunakan LiteRT-LM.
Pertimbangan Utama untuk Perencanaan Memori
- Arsitektur Efisien (E2B dan E4B): "E" adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel penyematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat. Itulah sebabnya total memori yang diperlukan untuk memuat bobot statis lebih tinggi daripada yang ditunjukkan oleh jumlah parameter efektif.
- Arsitektur MoE (26B A4B): 26B adalah model Mixture of Experts. Meskipun hanya mengaktifkan 4 miliar parameter per token selama generasi, semua 26 miliar parameter harus dimuat ke dalam memori untuk mempertahankan kecepatan perutean dan inferensi yang cepat. Inilah alasan persyaratan memori dasarnya jauh lebih dekat dengan model 26B padat daripada model 4B.
- Hanya Bobot Dasar: Perkiraan dalam tabel sebelumnya hanya memperhitungkan memori yang diperlukan untuk memuat bobot model statis. Tidak termasuk VRAM tambahan yang diperlukan untuk mendukung software atau jendela konteks.
- Jendela Konteks (Cache KV): Penggunaan memori akan meningkat secara dinamis berdasarkan jumlah total token dalam perintah Anda dan respons yang dihasilkan. Jendela konteks yang lebih besar memerlukan VRAM yang jauh lebih banyak di samping bobot model dasar.
- Overhead Penyesuaian: Persyaratan memori untuk penyesuaian model Gemma jauh lebih tinggi daripada untuk inferensi standar. Jejak persis Anda akan sangat bergantung pada framework pengembangan, ukuran tumpukan, dan apakah Anda menggunakan penyesuaian presisi penuh atau metode Parameter-Efficient Fine-Tuning (PEFT) seperti Low-Rank Adaptation (LoRA).
Pelatihan yang Sadar Kuantisasi (QAT)
Untuk deployment yang memerlukan efisiensi maksimum dengan kompromi kualitas minimal, Gemma menawarkan model Pelatihan yang Sadar Kuantisasi (QAT) resmi.
Tidak seperti Kuantisasi Pasca-Pelatihan (PTQ) standar, yang memadatkan model yang terlatih sepenuhnya dan dapat menyebabkan penurunan kualitas, QAT mengintegrasikan simulasi kuantisasi ke dalam proses pelatihan itu sendiri. Hal ini memungkinkan model mempelajari cara mengompensasi hilangnya presisi, sehingga menghasilkan model yang lebih kecil dan berperforma hampir identik dengan dasar presisi tingginya.
Tabel Perutean Cepat
| Mesin Deployment Target | Download Akhiran | Kasus Penggunaan Utama |
|---|---|---|
| llama.cpp / LM Studio (Lokal) | {model-name}-qat-q4_0-gguf |
Deployment lokal tanpa penyiapan di CPU, Apple Silicon, atau GPU konsumen. |
| vLLM / SGLang | SERVER: {model-name}-qat-w4a16-ctSELULER: {model-name}-qat-mobile-ct |
Inferensi throughput tinggi yang memanfaatkan bobot 4-bit dengan aktivasi 16-bit. |
| Decoding Spekulatif | MODEL: {model-name}-qat-q4_0-unquantizedDRAFTER: {model-name}-qat-q4_0-unquantized-assistant |
Menjalankan model utama bersama dengan model draf MTP yang cocok untuk mempercepat pembuatan token secara drastis. Model harus dikuantisasi. |
| Format lainnya | {model-name}-qat-q4_0-unquantized |
Bobot yang tidak dikuantisasi untuk mengonversi ke format lain (misalnya, MLX) |
| Deployment Seluler (Transformers) | {model-name}-qat-mobile-transformers |
Bobot tepi dioptimalkan untuk kasus penggunaan seluler. Format ini berfungsi sebagai referensi untuk format lainnya. |
Koleksi QAT resmi di Hugging Face
- collections/google/gemma-4-qat-q4_0
- Checkpoint QAT Tanpa Kuantisasi (
-unquantized/-assistant): Bobot presisi setengah yang diekstrak langsung dari pipeline QAT. Model ini ideal untuk kompilasi hilir kustom, riset, atau menjalankan decoding spekulatif menggunakan model draf asisten. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B. - GGUF (
-gguf): Checkpoint tersedia untuk kompatibilitas langsung di seluruh ekosistem LLM lokal. Tersedia untuk Gemma 4 E2B, E4B, 12B, 26B A4B, dan 31B. - Tensor yang Dikompresi (
-w4a16-ct): Diserialkan secara native dalam standarcompressed-tensorsuntuk penayangan cloud yang dioptimalkan dan dengan konkurensi tinggi. Tersedia untuk Gemma 4 E2B, E4B, 12B, dan 31B.
- Checkpoint QAT Tanpa Kuantisasi (
- collections/google/gemma-4-qat-mobile
- Dioptimalkan untuk Perangkat Seluler (
-mobile-transformers/-mobile-ct): Dibuat berdasarkan skemawNa8o8kustom yang dirancang khusus untuk batasan hardware seluler. Model ini menggunakan lapisan decoding 2-bit yang ditargetkan, cache KV yang dioptimalkan, dan aktivasi statis untuk memaksimalkan penghematan RAM di perangkat tanpa membebani prosesor edge. Tersedia untuk Gemma 4 E2B dan E4B.
- Dioptimalkan untuk Perangkat Seluler (
Semua titik pemeriksaan QAT resmi Gemma 4 juga dapat diakses langsung dari Kaggle.
Model Gemma sebelumnya
Anda dapat menggunakan model Gemma generasi sebelumnya, yang juga tersedia dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang model Gemma sebelumnya, lihat halaman kartu model berikut:
- Kartu Model Gemma 3
- Kartu Model Gemma 2
- Kartu Model Gemma 1
Siap untuk mulai membangun solusi? Mulai menggunakan model Gemma.