
Hugging Face |
GitHub |
Blog Peluncuran |
Dokumentasi
Lisensi: Apache 2.0 | Penulis: Google DeepMind
Gemma adalah serangkaian model terbuka yang dibuat oleh Google DeepMind. Model Gemma 4 bersifat multimodal, menangani input teks dan gambar (dengan audio yang didukung pada model E2B, E4B, dan 12B) dan menghasilkan output teks. Rilis ini mencakup model open-weight dalam varian yang telah dilatih sebelumnya dan yang dioptimalkan untuk mengikuti perintah. Gemma 4 memiliki jendela konteks hingga 256K token dan mempertahankan dukungan multibahasa dalam lebih dari 140 bahasa.
Dengan arsitektur Dense dan Mixture-of-Experts (MoE), Gemma 4 sangat cocok untuk tugas seperti pembuatan teks, coding, dan penalaran. Model ini tersedia dalam lima ukuran berbeda: E2B, E4B, 12B, 26B A4B, dan 31B. Berkat ukurannya yang beragam, model ini dapat di-deploy di lingkungan mulai dari ponsel kelas atas hingga laptop dan server, sehingga mendemokratisasi akses ke AI canggih.
Gemma 4 memperkenalkan kemampuan dan peningkatan arsitektur utama:
Penalaran – Semua model dalam keluarga ini didesain sebagai model yang sangat mumpuni dalam melakukan penalaran, dengan mode berpikir yang dapat dikonfigurasi.
Multimodalitas yang Diperluas – Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B, E4B, dan 12B).
Arsitektur yang Beragam & Efisien – Menawarkan varian Dense dan Mixture-of-Experts (MoE) dengan berbagai ukuran untuk deployment yang skalabel.
Dioptimalkan untuk Di Perangkat – Model yang lebih kecil dirancang khusus untuk eksekusi lokal yang efisien di laptop dan perangkat seluler.
Jendela Konteks yang Lebih Besar – Model kecil memiliki jendela konteks 128 ribu, sedangkan model sedang mendukung 256 ribu.
Kemampuan Coding & Agen yang Lebih Baik – Mencapai peningkatan yang signifikan dalam tolok ukur coding bersama dengan dukungan panggilan fungsi native, yang mendukung agen otonom yang sangat mumpuni.
Dukungan Perintah Sistem Native – Gemma 4 memperkenalkan dukungan native untuk peran
system, sehingga memungkinkan percakapan yang lebih terstruktur dan terkontrol.
Ringkasan Model
Model Gemma 4 dirancang untuk memberikan performa tingkat tinggi di setiap ukuran, yang menargetkan skenario deployment dari perangkat seluler dan edge (E2B, E4B) hingga GPU dan workstation konsumen (12B, 26B A4B, 31B). Model ini sangat cocok untuk penalaran, alur kerja agentik, coding, dan pemahaman multimodal.
Model ini menggunakan mekanisme atensi hibrida yang menyisipkan atensi jendela geser lokal dengan atensi global penuh, sehingga memastikan lapisan akhir selalu global. Desain hibrida ini memberikan kecepatan pemrosesan dan jejak memori yang rendah dari model ringan tanpa mengorbankan pemahaman mendalam yang diperlukan untuk tugas-tugas kompleks dengan konteks panjang. Untuk mengoptimalkan memori untuk konteks panjang, lapisan global menampilkan Kunci dan Nilai terpadu, serta menerapkan Proportional RoPE (p-RoPE).
Model Padat
| Properti | E2B | E4B | 12B Unified | 31B Padat |
|---|---|---|---|---|
| Total Parameter | 2,3 Miliar efektif (5,1 Miliar dengan penyematan) | 4,5B efektif (8B dengan penyematan) | 11,95 Miliar | 30,7 M |
| Lapisan | 35 | 42 | 48 | 60 |
| Sliding Window | 512 token | 512 token | 1024 token | 1024 token |
| Panjang Konteks | 128 ribu token | 128 ribu token | 256 ribu token | 256 ribu token |
| Ukuran Kosakata | 262 RB | 262 RB | 262 RB | 262 RB |
| Modalitas yang Didukung | Teks, Gambar, Audio | Teks, Gambar, Audio | Teks, Gambar, Audio | Teks, Gambar |
| Parameter Vision Encoder | ~150 JT | ~150 JT | - | ~550 JUTA |
| Parameter Encoder Audio | ~300 JT | ~300 JT | - | Tanpa Audio |
"E" dalam E2B dan E4B adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan atau parameter ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel sematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat, sehingga jumlah parameter efektif jauh lebih kecil daripada totalnya.
"Unified" (Terpadu) di Gemma 4 12B Unified mengacu pada arsitekturnya yang bebas encoder. Model Gemma 4 lainnya menggunakan encoder khusus untuk memproses data multimodal sebelum meneruskannya ke LLM. Gemma 4 12B menghilangkan encoder ini sepenuhnya, memproyeksikan patch gambar mentah dan bentuk gelombang audio langsung ke ruang penyematan LLM melalui lapisan linear ringan. Pendekatan terpadu ini berarti semua modalitas langsung masuk ke satu transformer khusus decoder, sehingga mengurangi latensi multimodal dan memungkinkan seluruh model di-fine-tune dalam satu langkah.
Model Mixture-of-Experts (MoE)
| Properti | 26B A4B MoE |
|---|---|
| Total Parameter | 25,2 M |
| Parameter Aktif | 3,8 M |
| Lapisan | 30 |
| Sliding Window | 1024 token |
| Panjang Konteks | 256 ribu token |
| Ukuran Kosakata | 262 RB |
| Jumlah Pakar | 8 aktif / 128 total dan 1 dibagikan |
| Modalitas yang Didukung | Teks, Gambar |
| Parameter Vision Encoder | ~550 JUTA |
"A" dalam 26B A4B adalah singkatan dari "parameter aktif" yang berbeda dengan jumlah total parameter yang dimiliki model. Dengan hanya mengaktifkan subset 4B parameter selama inferensi, model Mixture-of-Experts berjalan jauh lebih cepat daripada yang mungkin ditunjukkan oleh total 26B-nya. Hal ini menjadikannya pilihan yang sangat baik untuk inferensi cepat dibandingkan dengan model 31B padat karena berjalan hampir secepat model 4B parameter.
Hasil Benchmark
Model ini dievaluasi terhadap banyak kumpulan data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks. Hasil evaluasi yang ditandai dalam tabel adalah untuk model yang dioptimalkan untuk mengikuti perintah.
| Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Terpadu | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (tanpa berpikir) | |
|---|---|---|---|---|---|---|
| MMLU Pro | 85,2% | 82,6% | 77,2% | 69,4% | 60,0% | 67,6% |
| AIME 2026 tanpa alat | 89,2% | 88,3% | 77,5% | 42,5% | 37,5% | 20,8% |
| LiveCodeBench v6 | 80,0% | 77,1% | 72,0% | 52,0% | 44,0% | 29,1% |
| ELO Codeforces | 2150 | 1718 | 1659 | 940 | 633 | 110 |
| GPQA Diamond | 84,3% | 82,3% | 78,8% | 58,6% | 43,4% | 42,4% |
| Tau2 (rata-rata 3) | 76,9% | 68,2% | 69,0% | 42,2% | 24,5% | 16,2% |
| HLE tanpa alat | 19,5% | 8,7% | 5,2% | - | - | - |
| HLE dengan penelusuran | 26,5% | 17,2% | - | - | - | - |
| BigBench Sangat Sulit | 74,4% | 64,8% | 53,0% | 33,1% | 21,9% | 19,3% |
| MMMLU | 88,4% | 86,3% | 83,4% | 76,6% | 67,4% | 70,7% |
| Penglihatan | ||||||
| MMMU Pro | 76,9% | 73,8% | 69,1% | 52,6% | 44,2% | 49,7% |
| OmniDocBench 1.5 (jarak pengeditan rata-rata, semakin rendah semakin baik) | 0,131 | 0,149 | 0,164 | 0,181 | 0,290 | 0,365 |
| MATH-Vision | 85,6% | 82,4% | 79,7% | 59,5% | 52,4% | 46,0% |
| MedXPertQA MM | 61,3% | 58,1% | 48,7% | 28,7% | 23,5% | - |
| Audio | ||||||
| CoVoST | - | - | 38,5* | 35,54 | 33.47 | - |
| FLEURS (lebih rendah lebih baik) | - | - | 0,069* | 0,08 | 0,09 | - |
| Konteks Panjang | ||||||
| MRCR v2 8 jarum 128k (rata-rata) | 66,4% | 44,1% | 43,4% | 25,4% | 19,1% | 13.5% |
*Tidak termasuk bahasa China.
Kemampuan Inti
Model Gemma 4 menangani berbagai tugas di seluruh teks, visi, dan audio. Kemampuan utama meliputi:
- Penalaran – Mode penalaran bawaan yang memungkinkan model berpikir langkah demi langkah sebelum menjawab.
- Konteks Panjang – Jendela konteks hingga 128 ribu token (E2B/E4B) dan 256 ribu token (12B/26B A4B/31B).
- Pemahaman Gambar – Deteksi objek, penguraian Dokumen/PDF, pemahaman layar dan UI, pemahaman diagram, OCR (termasuk multibahasa), pengenalan tulisan tangan, dan penunjuk. Gambar dapat diproses pada rasio aspek dan resolusi yang bervariasi.
- Pemahaman Video – Menganalisis video dengan memproses urutan frame.
- Input Multimodal yang Disisipkan – Bebas menggabungkan teks dan gambar dalam urutan apa pun dalam satu perintah.
- Panggilan Fungsi – Dukungan native untuk penggunaan alat terstruktur, yang memungkinkan alur kerja seperti agen.
- Coding – Pembuatan, penyelesaian, dan koreksi kode.
- Multibahasa – Dukungan langsung untuk lebih dari 35 bahasa, telah dilatih dengan lebih dari 140 bahasa.
- Audio (Khusus E2B, E4B, dan 12B Unified) – Pengenalan ucapan otomatis (ASR) dan terjemahan ucapan-ke-teks terjemahan dalam beberapa bahasa.
Praktik Terbaik
Untuk performa terbaik, gunakan konfigurasi dan praktik terbaik berikut:
1. Parameter Sampling
Gunakan konfigurasi pengambilan sampel standar berikut di semua kasus penggunaan:
temperature=1.0top_p=0.95top_k=64
2. Konfigurasi Mode Berpikir
Dibandingkan dengan Gemma 3, model ini menggunakan peran system, assistant, dan user
standar. Untuk mengelola proses berpikir dengan benar, gunakan token kontrol berikut:
- Memicu Penalaran: Penalaran diaktifkan dengan menyertakan token
<|think|>di awal perintah sistem. Untuk menonaktifkan pemikiran, hapus token. - Pembuatan Standar: Jika penalaran diaktifkan, model akan menghasilkan penalaran internalnya, diikuti dengan jawaban akhir menggunakan struktur ini:
<|channel>thought\n[Penalaran internal]<channel|> - Perilaku Berpikir yang Dinonaktifkan: Untuk semua model kecuali varian E2B dan E4B, jika berpikir dinonaktifkan, model akan tetap membuat tag, tetapi dengan blok pemikiran yang kosong:
<|channel>thought\n<channel|>[Jawaban akhir]
Perhatikan bahwa banyak library seperti Transformers dan llama.cpp menangani kompleksitas template chat untuk Anda.
3. Percakapan Multi-Giliran
- Tidak Ada Konten Penalaran dalam Histori: Dalam percakapan multi-giliran, output model historis hanya boleh menyertakan respons akhir. Pemikiran dari giliran model sebelumnya tidak boleh ditambahkan sebelum giliran pengguna berikutnya dimulai.
4. Urutan modalitas
Untuk performa optimal dengan input multimodal, tempatkan:
- Konten gambar sebelum teks dalam perintah Anda.
- Konten audio setelah teks dalam perintah Anda.
5. Resolusi Gambar Variabel
Selain rasio aspek variabel, Gemma 4 mendukung resolusi gambar variabel melalui anggaran token visual yang dapat dikonfigurasi, yang mengontrol jumlah token yang digunakan untuk merepresentasikan gambar. Anggaran token yang lebih tinggi mempertahankan detail visual yang lebih banyak dengan biaya komputasi tambahan, sedangkan anggaran yang lebih rendah memungkinkan inferensi yang lebih cepat untuk tugas yang tidak memerlukan pemahaman mendetail.
- Anggaran token yang didukung adalah: 70, 140, 280, 560, dan
1120.
- Gunakan anggaran yang lebih rendah untuk klasifikasi, pemberian teks, atau pemahaman video, yang mana inferensi yang lebih cepat dan pemrosesan banyak frame lebih penting daripada detail yang akurat.
- Gunakan anggaran yang lebih tinggi untuk tugas seperti OCR, penguraian dokumen, atau membaca teks kecil.
6. Audio
Gunakan struktur perintah berikut untuk pemrosesan audio:
- Pengenalan Ucapan Audio (ASR)
Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.
Follow these specific instructions for formatting the answer:
* Only output the transcription, with no newlines.
* When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.
- Terjemahan Ucapan Otomatis (AST)
Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.
7. Durasi Audio dan Video
Semua model mendukung input gambar dan dapat memproses video sebagai frame, sedangkan model E2B, E4B, dan 12B juga mendukung input audio. Audio mendukung durasi maksimum 30 detik. Video mendukung durasi maksimum 60 detik dengan asumsi gambar diproses pada satu frame per detik.
Data Model
Data yang digunakan untuk pelatihan model dan cara data diproses.
Dataset Pelatihan
Set data pra-pelatihan kami adalah kumpulan data beragam berskala besar yang mencakup berbagai domain dan modalitas, yang mencakup dokumen web, kode, gambar, audio, dengan tanggal batas Januari 2025. Berikut adalah komponen utama:
- Dokumen Web: Kumpulan teks web yang beragam memastikan model terpapar ke berbagai gaya bahasa, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 140 bahasa.
- Kode: Mengekspos model ke kode membantu model mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode dan memahami pertanyaan terkait kode.
- Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan menjawab kueri matematika.
- Gambar: Berbagai gambar memungkinkan model melakukan tugas analisis gambar dan ekstraksi data visual.
Kombinasi sumber data yang beragam ini sangat penting untuk melatih model multimodal yang andal yang dapat menangani berbagai tugas dan format data yang berbeda.
Pra-pemrosesan Data
Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:
- Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
- Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma terlatih awal aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
- Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.
Etika dan Keamanan
Seiring dengan semakin pentingnya model terbuka bagi infrastruktur perusahaan, asal-usul dan keamanan menjadi hal yang sangat penting. Dikembangkan oleh Google DeepMind, Gemma 4 menjalani evaluasi keamanan yang ketat seperti model Gemini eksklusif kami.
Pendekatan Evaluasi
Model Gemma 4 dikembangkan melalui kemitraan dengan tim AI yang bertanggung jawab dan tim keamanan internal. Berbagai evaluasi otomatis dan manual dilakukan untuk membantu meningkatkan keamanan model. Evaluasi ini selaras dengan prinsip AI Google, serta kebijakan keamanan, yang bertujuan mencegah model AI generatif kami menghasilkan konten berbahaya, termasuk:
- Konten yang terkait dengan eksploitasi dan materi pelecehan seksual terhadap anak-anak
- Konten berbahaya (misalnya, mempromosikan bunuh diri, atau memberikan petunjuk tentang aktivitas yang dapat menyebabkan bahaya di dunia nyata)
- Konten seksual vulgar
- Ujaran kebencian (misalnya, merendahkan anggota kelompok yang dilindungi)
- Pelecehan (misalnya, mendorong kekerasan terhadap orang lain)
Hasil Evaluasi
Untuk semua area pengujian keamanan, kami melihat peningkatan signifikan dalam semua kategori keamanan konten dibandingkan dengan model Gemma sebelumnya. Secara keseluruhan, model Gemma 4 secara signifikan mengungguli model Gemma 3 dan 3n dalam meningkatkan keamanan, sekaligus menjaga penolakan yang tidak dapat dibenarkan tetap rendah. Semua pengujian dilakukan tanpa filter keamanan untuk mengevaluasi kemampuan dan perilaku model. Untuk text-to-text dan image-to-text, serta di semua ukuran model, model ini menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan signifikan dibandingkan performa model Gemma sebelumnya.
Penggunaan dan Batasan
Model ini memiliki batasan tertentu yang harus diketahui pengguna.
Penggunaan yang Dimaksudkan
Model multimodal (yang mampu memproses visi, bahasa, dan/atau audio) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.
- Pembuatan Konten dan Komunikasi
- Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
- Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Ringkasan Teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
- Ekstraksi Data Gambar: Model ini dapat digunakan untuk mengekstrak, menafsirkan, dan meringkas data visual untuk komunikasi teks.
- Pemrosesan dan Interaksi Audio: Model E2B, E4B, dan 12B dapat menganalisis dan menafsirkan input audio, sehingga memungkinkan interaksi dan transkripsi berbasis suara.
- Penelitian dan Pendidikan
- Riset Natural Language Processing (NLP) dan VLM: Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM dan NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa yang interaktif, membantu mengoreksi tata bahasa atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti dalam mengeksplorasi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.
Batasan
- Data Pelatihan
- Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
- Konteks dan Kompleksitas Tugas
- Model berperforma baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin sulit dilakukan.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
- Ambiguitas dan Nuansa Bahasa
- Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
- Akurasi Faktual (Factual Accuracy)
- Model menghasilkan respons berdasarkan informasi yang dipelajarinya dari set data pelatihan, tetapi model tersebut bukanlah pusat informasi. AI dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
- Akal Sehat (Common Sense)
- Model mengandalkan pola statistik dalam bahasa. Agen mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.
Pertimbangan dan Risiko Etis
Pengembangan model bahasa-penglihatan (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:
- Bias dan Keadilan
- VLM yang dilatih dengan data teks dan gambar dunia nyata berskala besar dapat mencerminkan bias sosio-kultural yang tertanam dalam materi pelatihan. Model Gemma 4 menjalani pemeriksaan cermat, prapemrosesan data input, dan evaluasi pascapelatihan seperti yang dilaporkan dalam kartu ini untuk membantu memitigasi risiko bias ini.
- Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model, lihat Toolkit AI Generatif yang Bertanggung Jawab.
- Transparansi dan Akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.
Risiko yang diidentifikasi dan mitigasi:
- Pembuatan konten berbahaya: Mekanisme dan panduan untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
- Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi VLM yang berbahaya. Sumber daya edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan telah disediakan.
- Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
- Pelanggengan bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
Manfaat
Pada saat rilis, rangkaian model ini memberikan implementasi model visi-bahasa terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan responsible AI dibandingkan dengan model berukuran serupa.