Gemma 4 dirilis dengan input teks, audio, dan gambar serta jendela konteks panjang hingga 256K token. Pelajari lebih lanjut

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Kartu model Gemma 4

Banner Gemma 4

Hugging Face | GitHub | Blog Peluncuran | Dokumentasi
Lisensi: Apache 2.0 | Penulis: Google DeepMind

Gemma adalah serangkaian model terbuka yang dibuat oleh Google DeepMind. Model Gemma 4 bersifat multimodal, menangani input teks dan gambar (dengan audio yang didukung pada model E2B, E4B, dan 12B) dan menghasilkan output teks. Rilis ini mencakup model open-weight dalam varian yang telah dilatih sebelumnya dan yang dioptimalkan untuk mengikuti perintah. Gemma 4 memiliki jendela konteks hingga 256K token dan mempertahankan dukungan multibahasa dalam lebih dari 140 bahasa.

Dengan arsitektur Dense dan Mixture-of-Experts (MoE), Gemma 4 sangat cocok untuk tugas seperti pembuatan teks, coding, dan penalaran. Model ini tersedia dalam lima ukuran berbeda: E2B, E4B, 12B, 26B A4B, dan 31B. Berkat ukurannya yang beragam, model ini dapat di-deploy di lingkungan mulai dari ponsel kelas atas hingga laptop dan server, sehingga mendemokratisasi akses ke AI canggih.

Gemma 4 memperkenalkan kemampuan dan peningkatan arsitektur utama:

Penalaran – Semua model dalam keluarga ini didesain sebagai model yang sangat mumpuni dalam melakukan penalaran, dengan mode berpikir yang dapat dikonfigurasi.
Multimodalitas yang Diperluas – Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B, E4B, dan 12B).
Arsitektur yang Beragam & Efisien – Menawarkan varian Dense dan Mixture-of-Experts (MoE) dengan berbagai ukuran untuk deployment yang skalabel.
Dioptimalkan untuk Di Perangkat – Model yang lebih kecil dirancang khusus untuk eksekusi lokal yang efisien di laptop dan perangkat seluler.
Jendela Konteks yang Lebih Besar – Model kecil memiliki jendela konteks 128 ribu, sedangkan model sedang mendukung 256 ribu.
Kemampuan Coding & Agen yang Lebih Baik – Mencapai peningkatan yang signifikan dalam tolok ukur coding bersama dengan dukungan panggilan fungsi native, yang mendukung agen otonom yang sangat mumpuni.
Dukungan Perintah Sistem Native – Gemma 4 memperkenalkan dukungan native untuk peran system, sehingga memungkinkan percakapan yang lebih terstruktur dan terkontrol.

Ringkasan Model

Model Gemma 4 dirancang untuk memberikan performa tingkat tinggi di setiap ukuran, yang menargetkan skenario deployment dari perangkat seluler dan edge (E2B, E4B) hingga GPU dan workstation konsumen (12B, 26B A4B, 31B). Model ini sangat cocok untuk penalaran, alur kerja agentik, coding, dan pemahaman multimodal.

Model ini menggunakan mekanisme atensi hibrida yang menyisipkan atensi jendela geser lokal dengan atensi global penuh, sehingga memastikan lapisan akhir selalu global. Desain hibrida ini memberikan kecepatan pemrosesan dan jejak memori yang rendah dari model ringan tanpa mengorbankan pemahaman mendalam yang diperlukan untuk tugas-tugas kompleks dengan konteks panjang. Untuk mengoptimalkan memori untuk konteks panjang, lapisan global menampilkan Kunci dan Nilai terpadu, serta menerapkan Proportional RoPE (p-RoPE).

Model Padat

Properti	E2B	E4B	12B Unified	31B Padat
Total Parameter	2,3 Miliar efektif (5,1 Miliar dengan penyematan)	4,5B efektif (8B dengan penyematan)	11,95 Miliar	30,7 M
Lapisan	35	42	48	60
Sliding Window	512 token	512 token	1024 token	1024 token
Panjang Konteks	128 ribu token	128 ribu token	256 ribu token	256 ribu token
Ukuran Kosakata	262 RB	262 RB	262 RB	262 RB
Modalitas yang Didukung	Teks, Gambar, Audio	Teks, Gambar, Audio	Teks, Gambar, Audio	Teks, Gambar
Parameter Vision Encoder	~150 JT	~150 JT	-	~550 JUTA
Parameter Encoder Audio	~300 JT	~300 JT	-	Tanpa Audio

"E" dalam E2B dan E4B adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan atau parameter ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel sematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat, sehingga jumlah parameter efektif jauh lebih kecil daripada totalnya.

"Unified" (Terpadu) di Gemma 4 12B Unified mengacu pada arsitekturnya yang bebas encoder. Model Gemma 4 lainnya menggunakan encoder khusus untuk memproses data multimodal sebelum meneruskannya ke LLM. Gemma 4 12B menghilangkan encoder ini sepenuhnya, memproyeksikan patch gambar mentah dan bentuk gelombang audio langsung ke ruang penyematan LLM melalui lapisan linear ringan. Pendekatan terpadu ini berarti semua modalitas langsung masuk ke satu transformer khusus decoder, sehingga mengurangi latensi multimodal dan memungkinkan seluruh model di-fine-tune dalam satu langkah.

Model Mixture-of-Experts (MoE)

Properti	26B A4B MoE
Total Parameter	25,2 M
Parameter Aktif	3,8 M
Lapisan	30
Sliding Window	1024 token
Panjang Konteks	256 ribu token
Ukuran Kosakata	262 RB
Jumlah Pakar	8 aktif / 128 total dan 1 dibagikan
Modalitas yang Didukung	Teks, Gambar
Parameter Vision Encoder	~550 JUTA

"A" dalam 26B A4B adalah singkatan dari "parameter aktif" yang berbeda dengan jumlah total parameter yang dimiliki model. Dengan hanya mengaktifkan subset 4B parameter selama inferensi, model Mixture-of-Experts berjalan jauh lebih cepat daripada yang mungkin ditunjukkan oleh total 26B-nya. Hal ini menjadikannya pilihan yang sangat baik untuk inferensi cepat dibandingkan dengan model 31B padat karena berjalan hampir secepat model 4B parameter.

Hasil Benchmark

Model ini dievaluasi terhadap banyak kumpulan data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks. Hasil evaluasi yang ditandai dalam tabel adalah untuk model yang dioptimalkan untuk mengikuti perintah.

	Gemma 4 31B	Gemma 4 26B A4B	Gemma 4 12B Terpadu	Gemma 4 E4B	Gemma 4 E2B	Gemma 3 27B (tanpa berpikir)
MMLU Pro	85,2%	82,6%	77,2%	69,4%	60,0%	67,6%
AIME 2026 tanpa alat	89,2%	88,3%	77,5%	42,5%	37,5%	20,8%
LiveCodeBench v6	80,0%	77,1%	72,0%	52,0%	44,0%	29,1%
ELO Codeforces	2150	1718	1659	940	633	110
GPQA Diamond	84,3%	82,3%	78,8%	58,6%	43,4%	42,4%
Tau2 (rata-rata 3)	76,9%	68,2%	69,0%	42,2%	24,5%	16,2%
HLE tanpa alat	19,5%	8,7%	5,2%	-	-	-
HLE dengan penelusuran	26,5%	17,2%	-	-	-	-
BigBench Sangat Sulit	74,4%	64,8%	53,0%	33,1%	21,9%	19,3%
MMMLU	88,4%	86,3%	83,4%	76,6%	67,4%	70,7%
Penglihatan
MMMU Pro	76,9%	73,8%	69,1%	52,6%	44,2%	49,7%
OmniDocBench 1.5 (jarak pengeditan rata-rata, semakin rendah semakin baik)	0,131	0,149	0,164	0,181	0,290	0,365
MATH-Vision	85,6%	82,4%	79,7%	59,5%	52,4%	46,0%
MedXPertQA MM	61,3%	58,1%	48,7%	28,7%	23,5%	-
Audio
CoVoST	-	-	38,5^*	35,54	33.47	-
FLEURS (lebih rendah lebih baik)	-	-	0,069^*	0,08	0,09	-
Konteks Panjang
MRCR v2 8 jarum 128k (rata-rata)	66,4%	44,1%	43,4%	25,4%	19,1%	13.5%

^*Tidak termasuk bahasa China.

Kemampuan Inti

Model Gemma 4 menangani berbagai tugas di seluruh teks, visi, dan audio. Kemampuan utama meliputi:

Penalaran – Mode penalaran bawaan yang memungkinkan model berpikir langkah demi langkah sebelum menjawab.
Konteks Panjang – Jendela konteks hingga 128 ribu token (E2B/E4B) dan 256 ribu token (12B/26B A4B/31B).
Pemahaman Gambar – Deteksi objek, penguraian Dokumen/PDF, pemahaman layar dan UI, pemahaman diagram, OCR (termasuk multibahasa), pengenalan tulisan tangan, dan penunjuk. Gambar dapat diproses pada rasio aspek dan resolusi yang bervariasi.
Pemahaman Video – Menganalisis video dengan memproses urutan frame.
Input Multimodal yang Disisipkan – Bebas menggabungkan teks dan gambar dalam urutan apa pun dalam satu perintah.
Panggilan Fungsi – Dukungan native untuk penggunaan alat terstruktur, yang memungkinkan alur kerja seperti agen.
Coding – Pembuatan, penyelesaian, dan koreksi kode.
Multibahasa – Dukungan langsung untuk lebih dari 35 bahasa, telah dilatih dengan lebih dari 140 bahasa.
Audio (Khusus E2B, E4B, dan 12B Unified) – Pengenalan ucapan otomatis (ASR) dan terjemahan ucapan-ke-teks terjemahan dalam beberapa bahasa.

Praktik Terbaik

Untuk performa terbaik, gunakan konfigurasi dan praktik terbaik berikut:

1. Parameter Sampling

Gunakan konfigurasi pengambilan sampel standar berikut di semua kasus penggunaan:

temperature=1.0
top_p=0.95
top_k=64

2. Konfigurasi Mode Berpikir

Dibandingkan dengan Gemma 3, model ini menggunakan peran system, assistant, dan user standar. Untuk mengelola proses berpikir dengan benar, gunakan token kontrol berikut:

Memicu Penalaran: Penalaran diaktifkan dengan menyertakan token <|think|> di awal perintah sistem. Untuk menonaktifkan pemikiran, hapus token.
Pembuatan Standar: Jika penalaran diaktifkan, model akan menghasilkan penalaran internalnya, diikuti dengan jawaban akhir menggunakan struktur ini: <|channel>thought\n[Penalaran internal]<channel|>
Perilaku Berpikir yang Dinonaktifkan: Untuk semua model kecuali varian E2B dan E4B, jika berpikir dinonaktifkan, model akan tetap membuat tag, tetapi dengan blok pemikiran yang kosong: <|channel>thought\n<channel|>[Jawaban akhir]

Perhatikan bahwa banyak library seperti Transformers dan llama.cpp menangani kompleksitas template chat untuk Anda.

3. Percakapan Multi-Giliran

Tidak Ada Konten Penalaran dalam Histori: Dalam percakapan multi-giliran, output model historis hanya boleh menyertakan respons akhir. Pemikiran dari giliran model sebelumnya tidak boleh ditambahkan sebelum giliran pengguna berikutnya dimulai.

4. Urutan modalitas

Untuk performa optimal dengan input multimodal, tempatkan:

Konten gambar sebelum teks dalam perintah Anda.
Konten audio setelah teks dalam perintah Anda.

5. Resolusi Gambar Variabel

Selain rasio aspek variabel, Gemma 4 mendukung resolusi gambar variabel melalui anggaran token visual yang dapat dikonfigurasi, yang mengontrol jumlah token yang digunakan untuk merepresentasikan gambar. Anggaran token yang lebih tinggi mempertahankan detail visual yang lebih banyak dengan biaya komputasi tambahan, sedangkan anggaran yang lebih rendah memungkinkan inferensi yang lebih cepat untuk tugas yang tidak memerlukan pemahaman mendetail.

Anggaran token yang didukung adalah: 70, 140, 280, 560, dan 1120.
- Gunakan anggaran yang lebih rendah untuk klasifikasi, pemberian teks, atau pemahaman video, yang mana inferensi yang lebih cepat dan pemrosesan banyak frame lebih penting daripada detail yang akurat.
- Gunakan anggaran yang lebih tinggi untuk tugas seperti OCR, penguraian dokumen, atau membaca teks kecil.

6. Audio

Gunakan struktur perintah berikut untuk pemrosesan audio:

Pengenalan Ucapan Audio (ASR)

Transcribe the following speech segment in {LANGUAGE} into {LANGUAGE} text.

Follow these specific instructions for formatting the answer:
*   Only output the transcription, with no newlines.
*   When transcribing numbers, write the digits, i.e. write 1.7 and not one point seven, and write 3 instead of three.

Terjemahan Ucapan Otomatis (AST)

Transcribe the following speech segment in {SOURCE_LANGUAGE}, then translate it into {TARGET_LANGUAGE}.
When formatting the answer, first output the transcription in {SOURCE_LANGUAGE}, then one newline, then output the string '{TARGET_LANGUAGE}: ', then the translation in {TARGET_LANGUAGE}.

7. Durasi Audio dan Video

Semua model mendukung input gambar dan dapat memproses video sebagai frame, sedangkan model E2B, E4B, dan 12B juga mendukung input audio. Audio mendukung durasi maksimum 30 detik. Video mendukung durasi maksimum 60 detik dengan asumsi gambar diproses pada satu frame per detik.

Data Model

Data yang digunakan untuk pelatihan model dan cara data diproses.

Dataset Pelatihan

Set data pra-pelatihan kami adalah kumpulan data beragam berskala besar yang mencakup berbagai domain dan modalitas, yang mencakup dokumen web, kode, gambar, audio, dengan tanggal batas Januari 2025. Berikut adalah komponen utama:

Dokumen Web: Kumpulan teks web yang beragam memastikan model terpapar ke berbagai gaya bahasa, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 140 bahasa.
Kode: Mengekspos model ke kode membantu model mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode dan memahami pertanyaan terkait kode.
Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan menjawab kueri matematika.
Gambar: Berbagai gambar memungkinkan model melakukan tugas analisis gambar dan ekstraksi data visual.

Kombinasi sumber data yang beragam ini sangat penting untuk melatih model multimodal yang andal yang dapat menangani berbagai tugas dan format data yang berbeda.

Pra-pemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan pada data pelatihan:

Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di berbagai tahap dalam proses penyiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
Pemfilteran Data Sensitif: Sebagai bagian dari upaya menjadikan model Gemma terlatih awal aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
Metode tambahan: Memfilter berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Etika dan Keamanan

Seiring dengan semakin pentingnya model terbuka bagi infrastruktur perusahaan, asal-usul dan keamanan menjadi hal yang sangat penting. Dikembangkan oleh Google DeepMind, Gemma 4 menjalani evaluasi keamanan yang ketat seperti model Gemini eksklusif kami.

Pendekatan Evaluasi

Model Gemma 4 dikembangkan melalui kemitraan dengan tim AI yang bertanggung jawab dan tim keamanan internal. Berbagai evaluasi otomatis dan manual dilakukan untuk membantu meningkatkan keamanan model. Evaluasi ini selaras dengan prinsip AI Google, serta kebijakan keamanan, yang bertujuan mencegah model AI generatif kami menghasilkan konten berbahaya, termasuk:

Konten yang terkait dengan eksploitasi dan materi pelecehan seksual terhadap anak-anak
Konten berbahaya (misalnya, mempromosikan bunuh diri, atau memberikan petunjuk tentang aktivitas yang dapat menyebabkan bahaya di dunia nyata)
Konten seksual vulgar
Ujaran kebencian (misalnya, merendahkan anggota kelompok yang dilindungi)
Pelecehan (misalnya, mendorong kekerasan terhadap orang lain)

Hasil Evaluasi

Untuk semua area pengujian keamanan, kami melihat peningkatan signifikan dalam semua kategori keamanan konten dibandingkan dengan model Gemma sebelumnya. Secara keseluruhan, model Gemma 4 secara signifikan mengungguli model Gemma 3 dan 3n dalam meningkatkan keamanan, sekaligus menjaga penolakan yang tidak dapat dibenarkan tetap rendah. Semua pengujian dilakukan tanpa filter keamanan untuk mengevaluasi kemampuan dan perilaku model. Untuk text-to-text dan image-to-text, serta di semua ukuran model, model ini menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan signifikan dibandingkan performa model Gemma sebelumnya.

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Penggunaan yang Dimaksudkan

Model multimodal (yang mampu memproses visi, bahasa, dan/atau audio) memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan oleh pembuat model sebagai bagian dari pelatihan dan pengembangan model.

Pembuatan Konten dan Komunikasi
- Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
- Chatbot dan AI Percakapan: Mendukung antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
- Ringkasan Teks: Membuat ringkasan singkat dari korpus teks, makalah penelitian, atau laporan.
- Ekstraksi Data Gambar: Model ini dapat digunakan untuk mengekstrak, menafsirkan, dan meringkas data visual untuk komunikasi teks.
- Pemrosesan dan Interaksi Audio: Model E2B, E4B, dan 12B dapat menganalisis dan menafsirkan input audio, sehingga memungkinkan interaksi dan transkripsi berbasis suara.
Penelitian dan Pendidikan
- Riset Natural Language Processing (NLP) dan VLM: Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM dan NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
- Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa yang interaktif, membantu mengoreksi tata bahasa atau memberikan latihan menulis.
- Eksplorasi Pengetahuan: Membantu peneliti dalam mengeksplorasi kumpulan teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

Data Pelatihan
- Kualitas dan keragaman data pelatihan sangat memengaruhi kemampuan model. Bias atau kekurangan dalam data pelatihan dapat menyebabkan batasan dalam respons model.
- Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
Konteks dan Kompleksitas Tugas
- Model berperforma baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas yang terbuka atau sangat kompleks mungkin sulit dilakukan.
- Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
Ambiguitas dan Nuansa Bahasa
- Bahasa alami pada dasarnya rumit. Model mungkin kesulitan memahami nuansa halus, sarkasme, atau bahasa kiasan.
Akurasi Faktual (Factual Accuracy)
- Model menghasilkan respons berdasarkan informasi yang dipelajarinya dari set data pelatihan, tetapi model tersebut bukanlah pusat informasi. AI dapat menghasilkan pernyataan faktual yang salah atau tidak berlaku lagi.
Akal Sehat (Common Sense)
- Model mengandalkan pola statistik dalam bahasa. Agen mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa-penglihatan (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:

Bias dan Keadilan
- VLM yang dilatih dengan data teks dan gambar dunia nyata berskala besar dapat mencerminkan bias sosio-kultural yang tertanam dalam materi pelatihan. Model Gemma 4 menjalani pemeriksaan cermat, prapemrosesan data input, dan evaluasi pascapelatihan seperti yang dilaporkan dalam kartu ini untuk membantu memitigasi risiko bias ini.
Misinformasi dan Penyalahgunaan
- VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
- Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model, lihat Toolkit AI Generatif yang Bertanggung Jawab.
Transparansi dan Akuntabilitas
- Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
- Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk berbagi inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasi:

Pembuatan konten berbahaya: Mekanisme dan panduan untuk keamanan konten sangat penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk dan kasus penggunaan aplikasi tertentu.
Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu memitigasi aplikasi VLM yang berbahaya. Sumber daya edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan telah disediakan.
Pelanggaran privasi: Model dilatih dengan data yang difilter untuk menghapus informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.
Pelanggengan bias: Sebaiknya lakukan pemantauan berkelanjutan (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghilangan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.

Manfaat

Pada saat rilis, rangkaian model ini memberikan implementasi model visi-bahasa terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan responsible AI dibandingkan dengan model berukuran serupa.