
Hugging Face |
GitHub |
Blog Peluncuran |
Dokumentasi
Lisensi: Apache 2.0 | Penulis: Google DeepMind
Gemma adalah serangkaian model terbuka yang dibuat oleh Google DeepMind. Model Gemma 4 bersifat multimodal, menangani input teks dan gambar (dengan dukungan audio pada model kecil) dan menghasilkan output teks. Rilis ini mencakup model open-weight dalam varian yang telah dilatih sebelumnya dan yang dioptimalkan untuk mengikuti perintah. Gemma 4 memiliki jendela konteks hingga 256K token dan mempertahankan dukungan multibahasa dalam lebih dari 140 bahasa.
Dengan arsitektur Dense dan Mixture-of-Experts (MoE), Gemma 4 sangat cocok untuk tugas seperti pembuatan teks, coding, dan penalaran. Model ini tersedia dalam empat ukuran berbeda: E2B, E4B, 26B A4B, dan 31B. Ukurannya yang beragam membuatnya dapat di-deploy di lingkungan mulai dari ponsel kelas atas hingga laptop dan server, sehingga mendemokratisasi akses ke AI canggih.
Gemma 4 memperkenalkan kemampuan dan peningkatan arsitektur utama:
Penalaran – Semua model dalam keluarga ini didesain sebagai model penalaran yang sangat canggih, dengan mode berpikir yang dapat dikonfigurasi.
Multimodalitas yang Diperluas – Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B dan E4B).
Arsitektur yang Beragam & Efisien – Menawarkan varian Dense dan Mixture-of-Experts (MoE) dengan berbagai ukuran untuk deployment yang skalabel.
Dioptimalkan untuk Di Perangkat – Model yang lebih kecil dirancang khusus untuk eksekusi lokal yang efisien di laptop dan perangkat seluler.
Jendela Konteks yang Lebih Besar – Model kecil memiliki jendela konteks 128 ribu, sedangkan model sedang mendukung 256 ribu.
Kemampuan Coding & Agentik yang Ditingkatkan – Mencapai peningkatan yang signifikan dalam tolok ukur coding bersama dengan dukungan panggilan fungsi native, yang mendukung agen otonom yang sangat mumpuni.
Dukungan Perintah Sistem Native – Gemma 4 memperkenalkan dukungan native untuk peran
system, sehingga memungkinkan percakapan yang lebih terstruktur dan terkontrol.
Ringkasan Model
Model Gemma 4 dirancang untuk memberikan performa tingkat tinggi di setiap ukuran, dengan menargetkan skenario deployment dari perangkat seluler dan edge (E2B, E4B) hingga GPU dan workstation konsumen (26B A4B, 31B). Model ini sangat cocok untuk penalaran, alur kerja agentik, coding, dan pemahaman multimodal.
Model ini menggunakan mekanisme atensi hibrida yang menyisipkan atensi jendela geser lokal dengan atensi global penuh, sehingga memastikan lapisan akhir selalu global. Desain hybrid ini memberikan kecepatan pemrosesan dan jejak memori yang rendah dari model ringan tanpa mengorbankan pemahaman mendalam yang diperlukan untuk tugas-tugas kompleks dengan konteks panjang. Untuk mengoptimalkan memori untuk konteks panjang, lapisan global menampilkan Kunci dan Nilai terpadu, serta menerapkan Proportional RoPE (p-RoPE).
Model Padat
| Properti | E2B | E4B | 31B Dense |
|---|---|---|---|
| Total Parameter | 2,3B efektif (5,1B dengan penyematan) | 4,5B efektif (8B dengan penyematan) | 30,7 M |
| Lapisan | 35 | 42 | 60 |
| Sliding Window | 512 token | 512 token | 1024 token |
| Panjang Konteks | 128 ribu token | 128 ribu token | 256 ribu token |
| Ukuran Kosakata | 262 RB | 262 RB | 262 RB |
| Modalitas yang Didukung | Teks, Gambar, Audio | Teks, Gambar, Audio | Teks, Gambar |
| Parameter Vision Encoder | ~150 JT | ~150 JT | ~550 JT |
| Parameter Encoder Audio | ~300 JT | ~300 JT | Tanpa Audio |
"E" dalam E2B dan E4B adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan atau parameter ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel penyematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat, sehingga jumlah parameter efektif jauh lebih kecil daripada totalnya.
Model Mixture-of-Experts (MoE)
| Properti | 26B A4B MoE |
|---|---|
| Total Parameter | 25,2 M |
| Parameter Aktif | 3,8 M |
| Lapisan | 30 |
| Sliding Window | 1024 token |
| Panjang Konteks | 256 ribu token |
| Ukuran Kosakata | 262 RB |
| Jumlah Pakar | 8 aktif / 128 total dan 1 dibagikan |
| Modalitas yang Didukung | Teks, Gambar |
| Parameter Vision Encoder | ~550 JT |
"A" dalam 26B A4B adalah singkatan dari "parameter aktif" yang berbeda dengan jumlah total parameter yang ada dalam model. Dengan hanya mengaktifkan subset 4B parameter selama inferensi, model Mixture-of-Experts berjalan jauh lebih cepat daripada yang mungkin ditunjukkan oleh total 26B-nya. Hal ini menjadikannya pilihan yang sangat baik untuk inferensi cepat dibandingkan dengan model 31B padat karena berjalan hampir secepat model 4B parameter.
Hasil Benchmark
Model ini dievaluasi terhadap banyak koleksi set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks. Hasil evaluasi yang ditandai dalam tabel adalah untuk model yang dioptimalkan untuk mengikuti perintah.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (tanpa berpikir) | |
|---|---|---|---|---|---|
| MMLU Pro | 85,2% | 82,6% | 69,4% | 60,0% | 67,6% |
| AIME 2026 tanpa alat | 89,2% | 88,3% | 42,5% | 37,5% | 20,8% |
| LiveCodeBench v6 | 80,0% | 77,1% | 52,0% | 44,0% | 29,1% |
| ELO Codeforces | 2150 | 1718 | 940 | 633 | 110 |
| GPQA Diamond | 84,3% | 82,3% | 58,6% | 43,4% | 42,4% |
| Tau2 (rata-rata 3) | 76,9% | 68,2% | 42,2% | 24,5% | 16,2% |
| HLE tanpa alat | 19,5% | 8,7% | - | - | - |
| HLE dengan penelusuran | 26,5% | 17,2% | - | - | - |
| BigBench Sangat Sulit | 74,4% | 64,8% | 33,1% | 21,9% | 19,3% |
| MMMLU | 88,4% | 86,3% | 76,6% | 67,4% | 70,7% |
| Penglihatan | |||||
| MMMU Pro | 76,9% | 73,8% | 52,6% | 44,2% | 49,7% |
| OmniDocBench 1.5 (jarak pengeditan rata-rata, semakin rendah semakin baik) | 0,131 | 0,149 | 0,181 | 0,290 | 0,365 |
| MATH-Vision | 85,6% | 82,4% | 59,5% | 52,4% | 46,0% |
| MedXPertQA MM | 61,3% | 58,1% | 28,7% | 23,5% | - |
| Audio | |||||
| CoVoST | - | - | 35,54 | 33.47 | - |
| FLEURS (lebih rendah lebih baik) | - | - | 0,08 | 0,09 | - |
| Konteks Panjang | |||||
| MRCR v2 8 jarum 128k (rata-rata) | 66,4% | 44,1% | 25,4% | 19,1% | 13.5% |
Kemampuan Inti
Model Gemma 4 menangani berbagai tugas di seluruh teks, visi, dan audio. Kemampuan utama meliputi:
- Berpikir – Mode penalaran bawaan yang memungkinkan model berpikir langkah demi langkah sebelum menjawab.
- Konteks Panjang – Jendela konteks hingga 128 ribu token (E2B/E4B) dan 256 ribu token (26B A4B/31B).
- Pemahaman Gambar – Deteksi objek, parsing Dokumen/PDF, pemahaman layar dan UI, pemahaman diagram, OCR (termasuk multibahasa), pengenalan tulisan tangan, dan penunjuk. Gambar dapat diproses pada rasio aspek dan resolusi yang bervariasi.
- Pemahaman Video – Menganalisis video dengan memproses urutan frame.
- Input Multimodal yang Disisipkan – Bebas memadukan teks dan gambar dalam urutan apa pun dalam satu perintah.
- Panggilan Fungsi – Dukungan native untuk penggunaan alat terstruktur, yang memungkinkan alur kerja seperti agen.
- Coding – Pembuatan, penyelesaian, dan koreksi kode.
- Multibahasa – Dukungan langsung untuk lebih dari 35 bahasa, telah dilatih dengan lebih dari 140 bahasa.
- Audio (khusus E2B dan E4B) – Pengenalan ucapan otomatis (ASR) dan terjemahan ucapan ke teks terjemahan dalam beberapa bahasa.
Memulai
Anda dapat menggunakan semua model Gemma 4 dengan Transformers versi terbaru. Untuk memulai, instal dependensi yang diperlukan di lingkungan Anda:
pip install -U transformers torch accelerate
Setelah menginstal semuanya, Anda dapat melanjutkan untuk memuat model dengan kode di bawah:
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
MODEL_ID = "google/gemma-4-E2B-it"
# Load model
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
dtype=torch.bfloat16,
device_map="auto"
)
Setelah model dimuat, Anda dapat mulai menghasilkan output:
# Prompt
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
# Process input
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
input_len = inputs["input_ids"].shape[-1]
# Generate output
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
# Parse thinking
processor.parse_response(response)
Untuk mengaktifkan penalaran, tetapkan enable_thinking=True dan fungsi parse_response
akan menangani penguraian output pemikiran.
Praktik Terbaik
Untuk performa terbaik, gunakan konfigurasi dan praktik terbaik berikut:
1. Parameter Sampling
Gunakan konfigurasi pengambilan sampel standar berikut di semua kasus penggunaan:
temperature=1.0top_p=0.95top_k=64
2. Konfigurasi Mode Berpikir
Dibandingkan dengan Gemma 3, model ini menggunakan peran system, assistant, dan user
standar. Untuk mengelola proses berpikir dengan benar, gunakan token kontrol berikut:
- Memicu Penalaran: Penalaran diaktifkan dengan menyertakan token
<|think|>di awal perintah sistem. Untuk menonaktifkan pemikiran, hapus token. - Pembuatan Standar: Jika penalaran diaktifkan, model akan menghasilkan penalaran internalnya, diikuti dengan jawaban akhir menggunakan struktur ini:
<|channel>thought\n[Penalaran internal]<channel|> - Perilaku Pemikiran yang Dinonaktifkan: Untuk semua model kecuali varian E2B dan E4B, jika pemikiran dinonaktifkan, model akan tetap membuat tag, tetapi dengan blok pemikiran yang kosong:
<|channel>thought\n<channel|>[Jawaban akhir]
Perhatikan bahwa banyak library seperti Transformers dan llama.cpp menangani kompleksitas template chat untuk Anda.
3. Percakapan Multi-Giliran
- Tidak Ada Konten Penalaran dalam Histori: Dalam percakapan multi-giliran, output model historis hanya boleh menyertakan respons akhir. Pemikiran dari giliran model sebelumnya tidak boleh ditambahkan sebelum giliran pengguna berikutnya dimulai.
4. Urutan modalitas
- Untuk performa optimal dengan input multimodal, tempatkan konten gambar dan/atau audio sebelum teks dalam perintah Anda.
5. Resolusi Gambar Variabel
Selain rasio aspek variabel, Gemma 4 mendukung resolusi gambar variabel melalui anggaran token visual yang dapat dikonfigurasi, yang mengontrol jumlah token yang digunakan untuk merepresentasikan gambar. Anggaran token yang lebih tinggi mempertahankan detail visual yang lebih banyak dengan biaya komputasi tambahan, sedangkan anggaran yang lebih rendah memungkinkan inferensi yang lebih cepat untuk tugas yang tidak memerlukan pemahaman mendetail.
- Anggaran token yang didukung adalah: 70, 140, 280, 560, dan
1120.
- Gunakan anggaran yang lebih rendah untuk klasifikasi, pemberian teks, atau pemahaman video, yang mana inferensi yang lebih cepat dan pemrosesan banyak frame lebih penting daripada detail yang lebih akurat.
- Gunakan anggaran yang lebih tinggi untuk tugas seperti OCR, penguraian dokumen, atau membaca teks kecil.
6. Audio
Gunakan struktur perintah berikut untuk pemrosesan audio:
- Pengenalan Ucapan Audio (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- Terjemahan Ucapan Otomatis (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. Durasi Audio dan Video
Semua model mendukung input gambar dan dapat memproses video sebagai frame, sedangkan model E2B dan E4B juga mendukung input audio. Audio mendukung durasi maksimum 30 detik. Video mendukung durasi maksimum 60 detik dengan asumsi gambar diproses pada satu frame per detik.
Data Model
Data yang digunakan untuk pelatihan model dan cara data diproses.
Dataset Pelatihan
Set data pra-pelatihan kami adalah kumpulan data berskala besar dan beragam yang mencakup berbagai domain dan modalitas, yang mencakup dokumen web, kode, gambar, audio, dengan tanggal batas Januari 2025. Berikut adalah komponen utama:
- Dokumen Web: Kumpulan teks web yang beragam memastikan model terpapar pada berbagai gaya bahasa, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 140 bahasa.
- Kode: Mengekspos model ke kode membantu model mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode dan memahami pertanyaan terkait kode.
- Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolik, dan menjawab kueri matematika.
- Gambar: Berbagai gambar memungkinkan model melakukan tugas analisis gambar dan ekstraksi data visual.
Kombinasi sumber data yang beragam ini sangat penting untuk melatih model multimodal yang andal yang dapat menangani berbagai tugas dan format data yang berbeda.
Pra-pemrosesan Data
Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:
- Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
- Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma terlatih awal aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
- Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.
Etika dan Keamanan
Seiring dengan semakin pentingnya model terbuka bagi infrastruktur perusahaan, asal-usul dan keamanan menjadi sangat penting. Dikembangkan oleh Google DeepMind, Gemma 4 menjalani evaluasi keamanan yang sama ketatnya dengan model Gemini milik kami.
Pendekatan Evaluasi
Model Gemma 4 dikembangkan melalui kemitraan dengan tim AI yang bertanggung jawab dan tim keamanan internal. Berbagai evaluasi otomatis dan manual dilakukan untuk membantu meningkatkan keamanan model. Evaluasi ini selaras dengan prinsip AI Google, serta kebijakan keamanan, yang bertujuan mencegah model AI generatif kami menghasilkan konten berbahaya, termasuk:
- Konten yang terkait dengan materi dan eksploitasi pelecehan seksual terhadap anak-anak
- Konten berbahaya (misalnya, mempromosikan bunuh diri, atau memberikan petunjuk tentang aktivitas yang dapat menyebabkan bahaya di dunia nyata)
- Konten seksual vulgar
- Ujaran kebencian (misalnya, merendahkan anggota kelompok yang dilindungi)
- Pelecehan (misalnya, mendorong kekerasan terhadap orang lain)
Hasil Evaluasi
Untuk semua area pengujian keamanan, kami melihat peningkatan besar dalam semua kategori keamanan konten dibandingkan dengan model Gemma sebelumnya. Secara keseluruhan, model Gemma 4 secara signifikan mengungguli model Gemma 3 dan 3n dalam meningkatkan keamanan, sekaligus menjaga penolakan yang tidak dapat dibenarkan tetap rendah. Semua pengujian dilakukan tanpa filter keamanan untuk mengevaluasi kemampuan dan perilaku model. Untuk text-to-text dan image-to-text, serta di semua ukuran model, model ini menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan signifikan dibandingkan performa model Gemma sebelumnya.
Penggunaan dan Batasan
Model ini memiliki batasan tertentu yang harus diketahui pengguna.
Penggunaan yang Dimaksudkan
Model multimodal (yang mampu memproses visi, bahasa, dan/atau audio) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan Konten dan Komunikasi
- Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
- Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Ringkasan Teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
- Ekstraksi Data Gambar: Model ini dapat digunakan untuk mengekstrak, menafsirkan, dan meringkas data visual untuk komunikasi teks.
- Pemrosesan dan Interaksi Audio: Model yang lebih kecil (E2B dan E4B) dapat menganalisis dan menafsirkan input audio, sehingga memungkinkan interaksi dan transkripsi yang didukung suara.
- Riset dan Pendidikan
- Riset Natural Language Processing (NLP) dan VLM: Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM dan NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa yang interaktif, membantu mengoreksi tata bahasa atau memberikan latihan menulis.
- Eksplorasi Pengetahuan (Knowledge Exploration): Membantu peneliti dalam menjelajahi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.
Batasan
- Data Pelatihan
- Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
- Konteks dan Kompleksitas Tugas
- Model berperforma baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin sulit dilakukan.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Ambiguitas dan Nuansa Bahasa
- Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa figuratif.
- Akurasi Faktual
- Model menghasilkan respons berdasarkan informasi yang dipelajarinya dari set data pelatihan, tetapi model tersebut bukanlah pusat informasi. Model ini dapat menghasilkan pernyataan faktual yang salah atau tidak relevan.
- Common Sense
- Model mengandalkan pola statistik dalam bahasa. Agen mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
Pertimbangan dan Risiko Etis
Pengembangan model bahasa-penglihatan (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan dengan cermat hal-hal berikut:
- Bias dan Keadilan
- VLM yang dilatih dengan data teks dan gambar dunia nyata berskala besar dapat mencerminkan bias sosio-kultural yang tertanam dalam materi pelatihan. Model Gemma 4 menjalani pemeriksaan cermat, pra-pemrosesan data input, dan evaluasi pasca-pelatihan seperti yang dilaporkan dalam kartu ini untuk membantu memitigasi risiko bias ini.
- Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk membuat teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model, lihat Responsible Generative AI Toolkit.
- Transparansi dan Akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasi:
- Pembuatan konten berbahaya: Mekanisme dan panduan untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi VLM yang berbahaya. Sumber daya edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan telah disediakan.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
- Perpetuasi bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
Manfaat
Pada saat rilis, kelompok model ini menyediakan implementasi model bahasa-penglihatan terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan AI yang bertanggung jawab dibandingkan dengan model berukuran serupa.