Kartu model Gemma 3

Halaman Model: Gemma

Referensi dan Dokumentasi Teknis:

Persyaratan Penggunaan: Persyaratan

Authors: Google DeepMind

Informasi Model

Deskripsi ringkasan dan definisi singkat input dan output.

Deskripsi

Gemma adalah sekumpulan model terbuka yang ringan dan canggih dari Google, yang dibuat dari riset dan teknologi yang sama dengan yang digunakan untuk membuat model Gemini. Model Gemma 3 bersifat multimodal, menangani input teks dan gambar, serta menghasilkan output teks, dengan bobot terbuka untuk varian terlatih dan varian yang disesuaikan dengan petunjuk. Gemma 3 memiliki jendela konteks besar 128K, dukungan multibahasa dalam lebih dari 140 bahasa, dan tersedia dalam lebih banyak ukuran daripada versi sebelumnya. Model Gemma 3 sangat cocok untuk berbagai tugas pembuatan teks dan pemahaman gambar, termasuk menjawab pertanyaan, peringkasan, dan penalaran. Ukurannya yang relatif kecil memungkinkan deployment di lingkungan dengan resource terbatas seperti laptop, desktop, atau infrastruktur cloud Anda sendiri, yang mendemokratisasi akses ke model AI canggih dan membantu mendorong inovasi untuk semua orang.

Input dan output

  • Input:

    • String teks, seperti pertanyaan, perintah, atau dokumen yang akan diringkas
    • Gambar, dinormalisasi ke resolusi 896x896 dan dienkode ke masing-masing 256 token
    • Total konteks input 128 ribu token untuk ukuran 4B, 12B, dan 27B, serta 32 ribu token untuk ukuran 1B
  • Output:

    • Teks yang dihasilkan sebagai respons terhadap input, seperti jawaban atas pertanyaan, analisis konten gambar, atau ringkasan dokumen
    • Total konteks output hingga 128 ribu token untuk ukuran 4B, 12B, dan 27B, dan 32 ribu token untuk ukuran 1B per permintaan, dengan mengurangi token input permintaan

Pengutipan

@article{gemma_2025,
    title={Gemma 3},
    url={https://arxiv.org/abs/2503.19786},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}

Model Data

Data yang digunakan untuk pelatihan model dan cara data diproses.

Set Data Pelatihan

Model ini dilatih dengan set data teks yang mencakup berbagai sumber. Model 27 miliar dilatih dengan 14 triliun token, model 12 miliar dilatih dengan 12 triliun token, model 4 miliar dilatih dengan 4 triliun token, dan 1 miliar dengan 2 triliun token. Tanggal batas pengetahuan untuk data pelatihan adalah Agustus 2024. Berikut adalah komponen utamanya:

  • Dokumen Web: Koleksi teks web yang beragam memastikan model terekspos ke berbagai gaya linguistik, topik, dan kosakata. Set data pelatihan mencakup konten dalam lebih dari 140 bahasa.
  • Kode: Mengekspos model ke kode membantunya mempelajari sintaksis dan pola bahasa pemrograman, yang meningkatkan kemampuannya untuk membuat kode dan memahami pertanyaan terkait kode.
  • Matematika: Pelatihan pada teks matematika membantu model mempelajari penalaran logis, representasi simbolis, dan untuk menangani kueri matematika.
  • Gambar: Berbagai gambar memungkinkan model melakukan tugas analisis gambar dan ekstraksi data visual.

Kombinasi sumber data yang beragam ini sangat penting untuk melatih model multimodal yang canggih yang dapat menangani berbagai tugas dan format data yang berbeda.

Prapemrosesan Data

Berikut adalah metode pembersihan dan pemfilteran data utama yang diterapkan ke data pelatihan:

  • Pemfilteran CSAM: Pemfilteran CSAM (Materi Pelecehan Seksual terhadap Anak-Anak) yang ketat diterapkan di beberapa tahap dalam proses persiapan data untuk memastikan pengecualian konten berbahaya dan ilegal.
  • Pemfilteran Data Sensitif: Sebagai bagian dari upaya untuk membuat model terlatih Gemma aman dan andal, teknik otomatis digunakan untuk memfilter informasi pribadi tertentu dan data sensitif lainnya dari set pelatihan.
  • Metode tambahan: Pemfilteran berdasarkan kualitas dan keamanan konten sesuai dengan kebijakan kami.

Informasi Penerapan

Detail tentang internal model.

Hardware

Gemma dilatih menggunakan hardware Tensor Processing Unit (TPU) (TPUv4p, TPUv5p, dan TPUv5e). Melatih model bahasa-penglihatan (VLMS) memerlukan daya komputasi yang signifikan. TPU, yang dirancang khusus untuk operasi matriks yang umum di machine learning, menawarkan beberapa keunggulan dalam domain ini:

  • Performa: TPU dirancang khusus untuk menangani komputasi massif yang terlibat dalam pelatihan VLM. GPU dapat mempercepat pelatihan secara signifikan dibandingkan dengan CPU.
  • Memori: TPU sering kali dilengkapi dengan memori bandwidth tinggi dalam jumlah besar, sehingga memungkinkan penanganan model dan ukuran batch yang besar selama pelatihan. Hal ini dapat menghasilkan kualitas model yang lebih baik.
  • Skalabilitas: Pod TPU (cluster TPU besar) memberikan solusi skalabilitas untuk menangani kompleksitas model fondasi besar yang semakin meningkat. Anda dapat mendistribusikan pelatihan di beberapa perangkat TPU untuk pemrosesan yang lebih cepat dan lebih efisien.
  • Efektivitas biaya: Dalam banyak skenario, TPU dapat memberikan solusi yang lebih hemat biaya untuk melatih model besar dibandingkan dengan infrastruktur berbasis CPU, terutama jika mempertimbangkan waktu dan resource yang dihemat karena pelatihan yang lebih cepat.
  • Keunggulan ini selaras dengan komitmen Google untuk beroperasi secara berkelanjutan.

Software

Pelatihan dilakukan menggunakan JAX dan ML Pathways.

JAX memungkinkan peneliti memanfaatkan hardware generasi terbaru, termasuk TPU, untuk pelatihan model besar yang lebih cepat dan efisien. ML Pathways adalah upaya terbaru Google untuk membuat sistem kecerdasan buatan yang mampu melakukan generalisasi di beberapa tugas. Hal ini sangat cocok untuk model dasar, termasuk model bahasa besar seperti ini.

Bersama-sama, JAX dan ML Pathways digunakan seperti yang dijelaskan dalam makalah tentang rangkaian model Gemini; "model pemrograman 'pengontrol tunggal' dari Jax dan Pathways memungkinkan satu proses Python untuk mengatur seluruh pelatihan yang berjalan, sehingga menyederhanakan alur kerja pengembangan secara drastis".

Evaluasi

Metrik dan hasil evaluasi model.

Hasil Benchmark

Model ini dievaluasi berdasarkan kumpulan besar set data dan metrik yang berbeda untuk mencakup berbagai aspek pembuatan teks. Hasil evaluasi yang ditandai dengan IT ditujukan untuk model yang disesuaikan dengan petunjuk. Hasil evaluasi yang ditandai dengan PT adalah untuk model terlatih.

Penalaran dan faktualitas

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
GPQA Diamond 0-shot 19,2 30,8 40,9 42,4
SimpleQA 0-shot 2.2 4.0 6.3 10.0
Pemahaman Fakta - 36,4 70,1 75,8 74,9
BIG-Bench Hard 0-shot 39,1 72,2 85,7 87,6
BIG-Bench Extra Hard 0-shot 7.2 11.0 16,3 19,3
IFEval 0-shot 80,2 90,2 88,9 90,4
Benchmark n-shot Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
HellaSwag 10-shot 62,3 77,2 84,2 85,6
BoolQ 0-shot 63.2 72,3 78,8 82,4
PIQA 0-shot 73,8 79,6 81,8 83,3
SocialIQA 0-shot 48,9 51,9 53,4 54,9
TriviaQA 5-shot 39,8 65,8 78,2 85,5
Pertanyaan Alami 5-shot 9,48 20,0 31,4 36,1
ARC-c 25 shot 38,4 56,2 68,9 70,6
ARC-e 0-shot 73,0 82,4 88,3 89,0
WinoGrande 5-shot 58.2 64,7 74,3 78,8
BIG-Bench Hard few-shot 28,4 50,9 72,6 77,7
DROP 1-shot 42,4 60,1 72,2 77,2

STEM dan kode

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMLU (Pro) 0-shot 14.7 43,6 60,6 67,5
LiveCodeBench 0-shot 1.9 12,6 24,6 29,7
Bird-SQL (dev) - 6.4 36,3 47,9 54,4
Matematika 0-shot 48,0 75,6 83,8 89,0
HiddenMath 0-shot 15,8 43,0 54,5 60,3
MBPP 3-shot 35,2 63.2 73,0 74,4
HumanEval 0-shot 41,5 71,3 85,4 87,8
Natural2Code 0-shot 56,0 70,3 80,7 84,5
GSM8K 0-shot 62,8 89,2 94,4 95,9
Benchmark n-shot Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MMLU 5-shot 59,6 74,5 78,6
MMLU (Pro COT) 5-shot 29,2 45,3 52,2
AGIEval 3-5-shot 42,1 57,4 66,2
MATH 4-shot 24,2 43,3 50,0
GSM8K 8-shot 38,4 71,0 82,6
GPQA 5-shot 15,0 25,4 24,3
MBPP 3-shot 46,0 60,4 65,6
HumanEval 0-shot 36,0 45,7 48,8

Multibahasa

Benchmark n-shot Gemma 3 IT 1B Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
Global-MMLU-Lite 0-shot 34,2 54,5 69,5 75,1
ECLeKTic 0-shot 1,4 4,6 10.3 16,7
WMT24++ 0-shot 35,9 46,8 51,6 53,4
Benchmark Gemma 3 PT 1B Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
MGSM 2,04 34,7 64,3 74,3
Global-MMLU-Lite 24,9 57,0 69,4 75,7
WMT24++ (ChrF) 36,7 48,4 53,9 55,7
FloRes 29,5 39,2 46,0 48,8
XQuAD (semua) 43,9 68,0 74,5 76,8
ECLeKTic 4,69 11.0 17,2 24,4
IndicGenBench 41,4 57,2 61,7 63,4

Multimodal

Benchmark Gemma 3 IT 4B Gemma 3 IT 12B Gemma 3 IT 27B
MMMU (val) 48,8 59,6 64,9
DocVQA 75,8 87,1 86,6
InfoVQA 50,0 64,9 70,6
TextVQA 57,8 67,7 65.1
AI2D 74,8 84,2 84,5
ChartQA 68,8 75,7 78,0
VQAv2 (val) 62,4 71,6 71,0
MathVista (testmini) 50,0 62,9 67,6
Benchmark Gemma 3 PT 4B Gemma 3 PT 12B Gemma 3 PT 27B
COCOcap 102 111 116
DocVQA (val) 72,8 82,3 85,6
InfoVQA (val) 44,1 54,8 59,4
MMMU (pt) 39,2 50,3 56,1
TextVQA (val) 58,9 66.5 68,6
RealWorldQA 45,5 52,2 53,9
ReMI 27,3 38.5 44,8
AI2D 63.2 75,2 79,0
ChartQA 63,6 74,7 76,3
VQAv2 63,9 71,2 72,9
BLINK 38,0 35,9 39,6
OKVQA 51,0 58,7 60.2
TallyQA 42,5 51,8 54,3
SpatialSense VQA 50,9 60,0 59,4
CountBenchQA 26,1 17,8 68,0

Etika dan Keselamatan

Pendekatan dan hasil evaluasi etika dan keamanan.

Pendekatan Evaluasi

Metode evaluasi kami mencakup evaluasi terstruktur dan pengujian tim red internal terhadap kebijakan konten yang relevan. Tim red-teaming dilakukan oleh sejumlah tim yang berbeda, masing-masing dengan sasaran dan metrik evaluasi manusia yang berbeda. Model ini dievaluasi berdasarkan sejumlah kategori yang berbeda dan relevan dengan etika dan keamanan, termasuk:

  • Keselamatan Anak: Evaluasi perintah teks ke teks dan gambar ke teks yang mencakup kebijakan keselamatan anak, termasuk pelecehan seksual terhadap anak dan eksploitasi.
  • Keamanan Konten: Evaluasi perintah teks ke teks dan gambar ke teks yang mencakup kebijakan keamanan, termasuk pelecehan, kekerasan dan kengerian, serta ujaran kebencian.
  • Bahaya Representasi: Evaluasi perintah teks ke teks dan gambar ke teks yang mencakup kebijakan keamanan, termasuk bias, stereotip, dan asosiasi atau ketidakakuratan yang berbahaya.

Selain evaluasi tingkat pengembangan, kami melakukan "evaluasi jaminan" yang merupakan evaluasi internal 'terpisah' kami untuk pengambilan keputusan pemerintahan tanggung jawab. Pengujian ini dilakukan secara terpisah dari tim pengembangan model, untuk menginformasikan pengambilan keputusan tentang rilis. Temuan tingkat tinggi akan ditampilkan kembali ke tim model, tetapi kumpulan perintah dikecualikan untuk mencegah overfitting dan mempertahankan kemampuan hasil untuk menginformasikan pengambilan keputusan. Hasil evaluasi jaminan dilaporkan ke Dewan Responsibility & Safety kami sebagai bagian dari peninjauan rilis.

Hasil Evaluasi

Untuk semua area pengujian keamanan, kami melihat peningkatan besar dalam kategori keamanan anak, keamanan konten, dan bahaya representasi dibandingkan dengan model Gemma sebelumnya. Semua pengujian dilakukan tanpa filter keamanan untuk mengevaluasi kemampuan dan perilaku model. Untuk teks ke teks dan gambar ke teks, serta di semua ukuran model, model menghasilkan pelanggaran kebijakan minimal, dan menunjukkan peningkatan yang signifikan dibandingkan performa model Gemma sebelumnya sehubungan dengan inferensi yang tidak berdasar. Batasan evaluasi kami adalah hanya menyertakan perintah dalam bahasa Inggris.

Penggunaan dan Batasan

Model ini memiliki batasan tertentu yang harus diketahui pengguna.

Penggunaan yang Dimaksudkan

Model VLM (model bahasa-visibilitas) terbuka memiliki berbagai aplikasi di berbagai industri dan domain. Daftar potensi penggunaan berikut tidak lengkap. Tujuan daftar ini adalah untuk memberikan informasi kontekstual tentang kemungkinan kasus penggunaan yang dipertimbangkan pembuat model sebagai bagian dari pelatihan dan pengembangan model.

  • Pembuatan dan Komunikasi Konten
    • Pembuatan Teks: Model ini dapat digunakan untuk membuat format teks kreatif seperti puisi, skrip, kode, teks pemasaran, dan draf email.
    • Chatbot dan AI Percakapan: Memperkuat antarmuka percakapan untuk layanan pelanggan, asisten virtual, atau aplikasi interaktif.
    • Ringkasan Teks: Membuat ringkasan ringkas dari korpus teks, makalah penelitian, atau laporan.
    • Ekstraksi Data Gambar: Model ini dapat digunakan untuk mengekstrak, menafsirkan, dan meringkas data visual untuk komunikasi teks.
  • Riset dan Pendidikan
    • Natural Language Processing (NLP) dan Riset VLM: Model ini dapat berfungsi sebagai dasar bagi peneliti untuk bereksperimen dengan teknik VLM dan NLP, mengembangkan algoritma, dan berkontribusi pada kemajuan bidang ini.
    • Alat Pembelajaran Bahasa: Mendukung pengalaman pembelajaran bahasa interaktif, membantu mengoreksi tata bahasa, atau memberikan latihan menulis.
    • Eksplorasi Pengetahuan: Membantu peneliti menjelajahi isi teks yang besar dengan membuat ringkasan atau menjawab pertanyaan tentang topik tertentu.

Batasan

  • Data Pelatihan
    • Kualitas dan keragaman data pelatihan secara signifikan memengaruhi kemampuan model. Bias atau kesenjangan dalam data pelatihan dapat menyebabkan keterbatasan dalam respons model.
    • Cakupan set data pelatihan menentukan area subjek yang dapat ditangani model secara efektif.
  • Konteks dan Kompleksitas Tugas
    • Model lebih baik dalam tugas yang dapat dibingkai dengan perintah dan petunjuk yang jelas. Tugas terbuka atau sangat kompleks mungkin menantang.
    • Performa model dapat dipengaruhi oleh jumlah konteks yang diberikan (konteks yang lebih panjang umumnya menghasilkan output yang lebih baik, hingga titik tertentu).
  • Ambiguitas dan Nuansa Bahasa
    • Bahasa alami pada dasarnya bersifat kompleks. Model mungkin kesulitan untuk memahami nuansa halus, sarkasme, atau bahasa kiasan.
  • Akurasi Faktual
    • Model menghasilkan respons berdasarkan informasi yang dipelajari dari set data pelatihannya, tetapi model bukanlah pusat informasi. Model tersebut dapat menghasilkan pernyataan faktual yang salah atau sudah tidak berlaku.
  • Common Sense
    • Model mengandalkan pola statistik dalam bahasa. Mereka mungkin tidak memiliki kemampuan untuk menerapkan penalaran akal sehat dalam situasi tertentu.

Pertimbangan dan Risiko Etis

Pengembangan model bahasa-visi (VLM) menimbulkan beberapa masalah etika. Dalam membuat model terbuka, kami telah mempertimbangkan hal-hal berikut dengan cermat:

  • Bias dan Keadilan
    • VLM yang dilatih pada data teks dan gambar dunia nyata berskala besar dapat mencerminkan bias sosial-budaya yang disematkan dalam materi pelatihan. Model ini telah menjalani pemeriksaan yang cermat, prapemrosesan data input yang dijelaskan, dan evaluasi posterior yang dilaporkan dalam kartu ini.
  • Misinformasi dan Penyalahgunaan
    • VLM dapat disalahgunakan untuk menghasilkan teks yang salah, menyesatkan, atau berbahaya.
    • Panduan disediakan untuk penggunaan yang bertanggung jawab dengan model ini, lihat Responsible Generative AI Toolkit.
  • Transparansi dan Akuntabilitas:
    • Kartu model ini merangkum detail tentang arsitektur, kemampuan, batasan, dan proses evaluasi model.
    • Model terbuka yang dikembangkan secara bertanggung jawab menawarkan peluang untuk membagikan inovasi dengan membuat teknologi VLM dapat diakses oleh developer dan peneliti di seluruh ekosistem AI.

Risiko yang diidentifikasi dan mitigasinya:

  • Perpetuasi bias: Sebaiknya lakukan pemantauan terus-menerus (menggunakan metrik evaluasi, peninjauan manual) dan eksplorasi teknik penghapusan bias selama pelatihan model, penyesuaian, dan kasus penggunaan lainnya.
  • Pembuatan konten yang merugikan: Mekanisme dan pedoman untuk keamanan konten sangatlah penting. Developer dianjurkan untuk berhati-hati dan menerapkan pengamanan keamanan konten yang sesuai berdasarkan kebijakan produk tertentu dan kasus penggunaan aplikasi mereka.
  • Penyalahgunaan untuk tujuan berbahaya: Batasan teknis serta edukasi developer dan pengguna akhir dapat membantu mengurangi aplikasi malicious VLM. Sumber daya edukasi dan mekanisme pelaporan bagi pengguna untuk melaporkan penyalahgunaan disediakan. Penggunaan model Gemma yang dilarang diuraikan dalam Kebijakan Penggunaan Terlarang Gemma.
  • Pelanggaran privasi: Model dilatih dengan data yang difilter untuk penghapusan informasi pribadi tertentu dan data sensitif lainnya. Developer dianjurkan untuk mematuhi peraturan privasi dengan teknik yang menjaga privasi.

Manfaat

Pada saat rilis, rangkaian model ini menyediakan implementasi model bahasa-visio terbuka berperforma tinggi yang dirancang dari awal untuk pengembangan AI yang bertanggung jawab dibandingkan dengan model berukuran serupa.

Dengan menggunakan metrik evaluasi benchmark yang dijelaskan dalam dokumen ini, model ini telah terbukti memberikan performa yang lebih baik dibandingkan alternatif model terbuka lainnya yang berukuran sebanding.