Metin, ses ve resim girişi ile 256 bin parçaya kadar uzun bağlam penceresi sunan Gemma 4 yayınlandı. Daha fazla bilgi

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 modeline genel bakış

Gemma, üretken yapay zeka modellerinin yer aldığı bir model ailesidir. Bu modelleri soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli üretkenlik görevlerinde kullanabilirsiniz. Gemma modelleri açık ağırlıklarla sağlanır ve sorumlu ticari kullanıma izin verir. Bu sayede modelleri kendi projelerinizde ve uygulamalarınızda ayarlayıp dağıtabilirsiniz.

Gemma 4 model ailesi, belirli donanım gereksinimlerine göre uyarlanmış dört farklı mimariden oluşur:

Küçük Boyutlar: Ultra mobil, uç ve tarayıcı dağıtımı için oluşturulmuş 2B ve 4B etkili parametre modelleri (ör. Pixel, Chrome).
Yoğun: Sunucu düzeyinde performans ile yerel yürütme arasındaki boşluğu kapatan güçlü bir 31 milyar parametreli yoğun modeldir.
Mixture-of-Experts: Yüksek işleme hızı ve gelişmiş akıl yürütme için tasarlanmış yüksek verimli bir 26B MoE modelidir.
Birleştirilmiş: Çok formatlı görevler için 12 milyar parametreli ücretsiz bir modeldir. Girişin doğrudan doğrusal projeksiyonlarıyla görme ve ses kodlayıcıların yerini almıştır.

Gemma 4 modellerini Kaggle ve Hugging Face'ten indirebilirsiniz. Gemma 4 ile ilgili daha fazla teknik ayrıntı için Model Kartı ve Teknik Rapor'a bakın. Gemma temel modellerinin önceki sürümleri de indirilebilir. Daha fazla bilgi için Önceki Gemma modelleri başlıklı makaleyi inceleyin.

Kaggle'dan indirin Hugging Face'ten indirin

Özellikler

Gerekçe: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli muhakeme araçları olarak tasarlanmıştır.
Genişletilmiş Çoklu Format: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) Metin, Resim, Video ve Ses işler (E2B, E4B ve 12B modellerinde yerel olarak bulunur).
Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi bulunurken orta modellerde 256 bin parçalık bağlam penceresi desteklenir.
Gelişmiş Kodlama ve Temsilci Yetenekleri: Yerleşik fonksiyon çağrısı desteği ile birlikte kodlama karşılaştırmalarında önemli iyileştirmeler elde ederek son derece yetenekli otonom temsilcilere güç verir.
Yerel Sistem İstemi Desteği: Gemma 4, sistem rolü için yerleşik destek sunarak daha yapılandırılmış ve kontrol edilebilir sohbetler sağlar.
Çoklu Token Tahmini: Tüm Gemma 4 modelleri (E2B, E4B, 12B, 31B ve 26B A4B), spekülatif kod çözme için özel bir taslak modeli içerir. Bu sayede, kalite kaybı olmadan önemli ölçüde daha hızlı çıkarım yapılabilir.

Parametre boyutları ve nicemleme

Gemma 4 modelleri 5 parametre boyutunda sunulur: E2B, E4B, 12B, 31B ve 26B A4B. Modeller, varsayılan hassasiyetleriyle (16 bit) veya nicemleme kullanılarak daha düşük bir hassasiyetle kullanılabilir. Farklı boyutlar ve hassasiyetler, yapay zeka uygulamanız için bir dizi dengelemeyi temsil eder. Daha yüksek parametre ve bit sayısına (daha yüksek hassasiyet) sahip modeller genellikle daha yeteneklidir ancak işlem döngüleri, bellek maliyeti ve güç tüketimi açısından çalıştırmak daha pahalıdır. Daha az parametreye ve bit sayısına (daha düşük hassasiyet) sahip modellerin yetenekleri daha azdır ancak yapay zeka göreviniz için yeterli olabilir.

Gemma 4 Çıkarım Belleği Gereksinimleri

Aşağıdaki tabloda, Gemma 4 model sürümlerinin her boyutuyla çıkarım çalıştırmak için gereken yaklaşık GPU veya TPU bellek gereksinimleri ayrıntılı olarak açıklanmaktadır.

Parametreler	BF16 (16 bit)	SFP8 (8 bit)	Q4_0 (4 bit)	Mobil	Mobil (yalnızca metin)
Gemma 4 E2B	11,4 GB	5,7 GB	2,9 GB	1,1 GB	0,84 GB
Gemma 4 E4B	17,9 GB	8,9 GB	4,5 GB	2,5 GB	2,2 GB
Gemma 4 12B	26,7 GB	13,4 GB	6,7 GB	-	-
Gemma 4 26B A4B	57,7 GB	28,8 GB	14,4 GB	-	-
Gemma 4 31B	69,9 GB	34,9 GB	17,5 GB	-	-

Tablo 1. Parametre sayısına, nicemleme düzeyine ve ek öğelerin yüklenmesi için% 20 ek yüke göre Gemma 4 modellerini yüklemek için gereken yaklaşık GPU veya TPU belleği. Mobil sürümlerde LiteRT-LM kullanılır.

Bellek planlamasıyla ilgili önemli noktalar

Verimli Mimari (E2B ve E4B): "E", "etkili" parametreleri anlamına gelir. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirmeler (PLE) içerir. PLE, modele daha fazla katman eklemek yerine her kod çözücü katmanına her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, statik ağırlıkları yüklemek için gereken toplam bellek, etkin parametre sayısının gösterdiğinden daha yüksektir.
MoE Mimarisi (26B A4B): 26B, Uzmanların Karışımı modelidir. Üretim sırasında jeton başına yalnızca 4 milyar parametreyi etkinleştirse de hızlı yönlendirme ve çıkarım hızlarını korumak için 26 milyar parametrenin tamamının belleğe yüklenmesi gerekir. Bu nedenle, temel bellek gereksinimi 4B modelden çok 26B yoğun modeline yakındır.
Yalnızca Temel Ağırlıklar: Yukarıdaki tablodaki tahminler yalnızca statik model ağırlıklarını yüklemek için gereken belleği hesaba katar. Yazılımı veya bağlam penceresini desteklemek için gereken ek VRAM'i içermez.
Bağlam Penceresi (KV Önbelleği): Bellek tüketimi, isteminizdeki toplam jeton sayısına ve oluşturulan yanıta bağlı olarak dinamik bir şekilde artar. Daha büyük bağlam pencereleri, temel model ağırlıklarına ek olarak önemli ölçüde daha fazla VRAM gerektirir.
İnce ayar ek yükü: Gemma modellerinde ince ayar için bellek gereksinimleri, standart çıkarım için gereken bellekten çok daha yüksektir. Tam olarak ne kadar yer kaplayacağınız; geliştirme çerçevesine, toplu iş boyutuna ve tam duyarlıklı ince ayar mı yoksa Low-Rank Adaptation (LoRA) gibi parametre açısından verimli ince ayar (PEFT) yöntemi mi kullandığınıza bağlıdır.

Kuantizasyona Duyarlı Eğitim (QAT)

Kaliteden en az düzeyde ödün vererek maksimum verimlilik gerektiren dağıtımlar için Gemma, resmi Quantization-Aware Training (QAT) modelleri sunar.

Tamamen eğitilmiş bir modeli sıkıştıran ve kalite düşüşüne yol açabilen standart eğitim sonrası nicemlemenin (PTQ) aksine, QAT nicemleme simülasyonunu eğitim sürecine entegre eder. Bu sayede model, hassasiyet kaybını telafi etmeyi öğrenir. Sonuç olarak, yüksek hassasiyetli temel çizgileriyle neredeyse aynı performansı gösteren daha küçük modeller elde edilir.

Hızlı yönlendirme tablosu

Hedef Dağıtım Motoru	İndirme Soneki	Birincil Kullanım Alanı
llama.cpp / LM Studio (Yerel)	`{model-name}-qat-q4_0-gguf`	CPU, Apple Silicon veya tüketici GPU'larında sıfır kurulumla yerel dağıtım.
vLLM / SGLang	SUNUCU: `{model-name}-qat-w4a16-ct` MOBİL: `{model-name}-qat-mobile-ct`	16 bit etkinleştirmelerle 4 bit ağırlıklar kullanan yüksek işleme hızlı çıkarım.
Tahmine Dayalı Kod Çözme	MODEL: `{model-name}-qat-q4_0-unquantized` DRAFTER: `{model-name}-qat-q4_0-unquantized-assistant`	Jeton oluşturma sürecini önemli ölçüde hızlandırmak için birincil modeli, eşleşen MTP taslak modeliyle birlikte çalıştırma. Model nicelendirilmiş olmalıdır.
Diğer biçimler	`{model-name}-qat-q4_0-unquantized`	Diğer biçimlere (ör. MLX) dönüştürmek için nicemlenmemiş ağırlıklar
Mobil Dağıtım (Transformers)	`{model-name}-qat-mobile-transformers`	Mobil kullanım alanları için optimize edilmiş kenar ağırlıkları. Diğer biçimler için referans olarak kullanılır.

Hugging Face'teki resmi QAT koleksiyonları

collections/google/gemma-4-qat-q4-0
- Kuantize edilmemiş QAT kontrol noktaları (-unquantized / -assistant): Doğrudan QAT işlem hattından çıkarılan yarı duyarlıklı ağırlıklar. Bu modeller, özel aşağı akış derlemesi, araştırma veya yardımcı taslak modellerini kullanarak spekülatif kod çözme çalıştırmak için idealdir. Gemma 4 E2B, E4B, 12B, 26B A4B ve 31B için kullanılabilir.
- GGUF (-gguf): Yerel LLM ekosisteminde anında kullanılabilen uyumluluk kontrol noktaları. Gemma 4 E2B, E4B, 12B, 26B A4B ve 31B için kullanılabilir.
- Sıkıştırılmış Tensörler (-w4a16-ct): Optimize edilmiş, yüksek eşzamanlılıkta bulut sunumu için compressed-tensors standardında yerel olarak serileştirilir. Gemma 4 E2B, E4B, 12B ve 31B için kullanılabilir.
collections/google/gemma-4-qat-mobile
- Mobil Cihazlar İçin Optimize Edilmiş (-mobile-transformers / -mobile-ct): Mobil donanım sınırları için özel olarak tasarlanmış bir wNa8o8 şeması üzerine kurulmuştur. Kenar işlemcileri tıkamadan cihaz üzerinde RAM tasarrufunu en üst düzeye çıkarmak için hedeflenen 2 bitlik kod çözme katmanları, optimize edilmiş KV önbellekleri ve statik etkinleştirmeler kullanır. Gemma 4 E2B ve E4B için kullanılabilir.

Tüm resmi Gemma 4 QAT kontrol noktalarına doğrudan Kaggle'dan da erişilebilir.

Önceki Gemma modelleri

Kaggle ve Hugging Face'te de bulunan önceki nesil Gemma modelleriyle çalışabilirsiniz. Önceki Gemma modelleriyle ilgili daha fazla teknik ayrıntı için aşağıdaki model kartı sayfalarına bakın:

Gemma 3 Model Kartı
Gemma 2 Model Kartı
Gemma 1 Model Kartı

Oluşturmaya başlamaya hazır mısınız? Gemma modellerini kullanmaya başlayın.