Gemma adalah serangkaian model kecerdasan buatan generatif dan Anda dapat menggunakannya dalam berbagai tugas pembuatan, termasuk question answering, peringkasan, dan penalaran. Model Gemma disediakan dengan bobot terbuka dan memungkinkan penggunaan komersial yang bertanggung jawab, sehingga Anda dapat menyesuaikan dan men-deploy-nya dalam proyek dan aplikasi Anda sendiri.
Rangkaian model Gemma 4 mencakup tiga arsitektur berbeda yang disesuaikan untuk persyaratan hardware tertentu:
- Ukuran Kecil: Model parameter efektif 2B dan 4B yang dibuat untuk deployment ultra-mobile, edge, dan browser (misalnya, Pixel, Chrome).
- Padat: Model padat dengan parameter 31B yang tangguh dan menjembatani kesenjangan antara performa tingkat server dan eksekusi lokal.
- Mixture-of-Experts: Model MoE 26B yang sangat efisien dan dirancang untuk penalaran tingkat lanjut dengan throughput tinggi.
Anda dapat mendownload model Gemma 4 dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang Gemma 4, lihat Kartu Model. Model inti Gemma versi sebelumnya juga tersedia untuk didownload. Untuk mengetahui informasi selengkapnya, lihat Model Gemma sebelumnya.
Dapatkan di Kaggle Dapatkan di Hugging Face
Kemampuan
- Alasan: Semua model dalam keluarga ini didesain sebagai sistem penalaran yang sangat canggih, dengan mode berpikir yang dapat dikonfigurasi.
- Multimodalitas yang Diperluas: Memproses Teks, Gambar dengan dukungan rasio aspek dan resolusi yang bervariasi (semua model), Video, dan Audio (tersedia secara native di model E2B dan E4B).
- Jendela Konteks yang Lebih Besar: Model kecil memiliki jendela konteks 128K, sedangkan model sedang mendukung 256K.
- Kemampuan Pengodean & Agen yang Ditingkatkan: Mencapai peningkatan yang signifikan dalam tolok ukur pengodean bersama dukungan panggilan fungsi bawaan, yang mendukung agen otonom yang sangat mumpuni.
- Dukungan Perintah Sistem Native: Gemma 4 memperkenalkan dukungan bawaan untuk peran sistem, sehingga memungkinkan percakapan yang lebih terstruktur dan dapat dikontrol.
Ukuran dan kuantisasi parameter
Model Gemma 4 tersedia dalam 4 ukuran parameter: E2B, E4B, 31B, dan 26B A4B. Model dapat digunakan dengan presisi defaultnya (16-bit) atau dengan presisi yang lebih rendah menggunakan kuantisasi. Berbagai ukuran dan presisi mewakili serangkaian pertimbangan untuk aplikasi AI Anda. Model dengan jumlah parameter dan bit yang lebih tinggi (presisi yang lebih tinggi) umumnya lebih mumpuni, tetapi lebih mahal untuk dijalankan dalam hal siklus pemrosesan, biaya memori, dan konsumsi daya. Model dengan jumlah parameter dan bit yang lebih rendah (presisi lebih rendah) memiliki kemampuan yang lebih sedikit, tetapi mungkin cukup untuk tugas AI Anda.
Persyaratan Memori Inferensi Gemma 4
Tabel berikut menguraikan perkiraan persyaratan memori GPU atau TPU untuk menjalankan inferensi dengan setiap ukuran versi model Gemma 4.
| Parameter | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) |
|---|---|---|---|
| Gemma 4 E2B | 9,6 GB | 4,6 GB | 3,2 GB |
| Gemma 4 E4B | 15 GB | 7,5 GB | 5 GB |
| Gemma 4 31B | 58,3 GB | 30,4 GB | 17,4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15,6 GB |
Tabel 1. Perkiraan memori GPU atau TPU yang diperlukan untuk memuat model Gemma 4 berdasarkan jumlah parameter dan tingkat kuantisasi.
Pertimbangan Utama untuk Perencanaan Memori
- Arsitektur Efisien (E2B dan E4B): "E" adalah singkatan dari parameter "efektif". Model yang lebih kecil menggabungkan Sematan Per Lapisan (PLE) untuk memaksimalkan efisiensi parameter dalam deployment di perangkat. Daripada menambahkan lebih banyak lapisan ke model, PLE memberikan setiap lapisan dekoder sematan kecilnya sendiri untuk setiap token. Tabel penyematan ini berukuran besar, tetapi hanya digunakan untuk pencarian cepat. Itulah sebabnya total memori yang diperlukan untuk memuat bobot statis lebih tinggi daripada jumlah parameter efektif yang disarankan.
- Arsitektur MoE (26B A4B): 26B adalah model Mixture of Experts. Meskipun hanya mengaktifkan 4 miliar parameter per token selama generasi, semua 26 miliar parameter harus dimuat ke dalam memori untuk mempertahankan kecepatan inferensi dan perutean yang cepat. Inilah alasan persyaratan memori dasarnya jauh lebih dekat dengan model 26B padat daripada model 4B.
- Hanya Bobot Dasar: Perkiraan dalam tabel sebelumnya hanya memperhitungkan memori yang diperlukan untuk memuat bobot model statis. GPU ini tidak menyertakan VRAM tambahan yang diperlukan untuk mendukung software atau jendela konteks.
- Jendela Konteks (Cache KV): Konsumsi memori akan meningkat secara dinamis berdasarkan jumlah total token dalam perintah Anda dan respons yang dihasilkan. Jendela konteks yang lebih besar memerlukan VRAM yang jauh lebih besar di samping bobot model dasar.
- Overhead Penyesuaian: Persyaratan memori untuk penyesuaian model Gemma jauh lebih tinggi daripada untuk inferensi standar. Jejak persis Anda akan sangat bergantung pada framework pengembangan, ukuran batch, dan apakah Anda menggunakan penyesuaian presisi penuh atau metode Parameter-Efficient Fine-Tuning (PEFT) seperti Low-Rank Adaptation (LoRA).
Model Gemma sebelumnya
Anda dapat menggunakan model Gemma generasi sebelumnya, yang juga tersedia dari Kaggle dan Hugging Face. Untuk mengetahui detail teknis selengkapnya tentang model Gemma sebelumnya, lihat halaman kartu model berikut:
- Kartu Model Gemma 3
- Kartu Model Gemma 2
- Kartu Model Gemma 1
Siap untuk mulai membangun solusi? Mulai menggunakan model Gemma!