Gemma 4 modeline genel bakış

Gemma, üretken yapay zeka modellerinin oluşturduğu bir ailedir. Bu modelleri soru yanıtlama, özetleme ve akıl yürütme gibi çeşitli üretkenlik görevlerinde kullanabilirsiniz. Gemma modelleri açık ağırlıklarla sağlanır ve sorumlu ticari kullanıma izin verir. Bu sayede modelleri kendi projelerinizde ve uygulamalarınızda ayarlayıp dağıtabilirsiniz.

Gemma 4 model ailesi, belirli donanım gereksinimlerine göre uyarlanmış dört farklı mimariden oluşur:

  • Küçük Boyutlar: Ultra mobil, uç ve tarayıcı dağıtımı için oluşturulmuş 2B ve 4B etkili parametre modelleri (ör. Pixel, Chrome).
  • Yoğun: Sunucu düzeyinde performans ile yerel yürütme arasındaki boşluğu kapatan güçlü bir 31 milyar parametreli yoğun modeldir.
  • Mixture-of-Experts: Yüksek işleme hızı ve gelişmiş akıl yürütme için tasarlanmış, yüksek verimli bir 26 milyar parametreli uzman karışımı modelidir.
  • Birleştirilmiş: Çok formatlı görevler için 12B parametreli kodlayıcıya sahip ücretsiz bir modeldir. Girişin doğrudan doğrusal projeksiyonlarıyla görme ve ses kodlayıcıların yerini alır.

Gemma 4 modellerini Kaggle ve Hugging Face'ten indirebilirsiniz. Gemma 4 ile ilgili daha fazla teknik bilgi için Model Kartı'na bakın. Gemma temel modellerinin önceki sürümleri de indirilebilir. Daha fazla bilgi için Önceki Gemma modelleri başlıklı makaleyi inceleyin.

Kaggle'dan indirin Hugging Face'ten indirin

Özellikler

  • Gerekçe: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli muhakeme araçları olarak tasarlanmıştır.
  • Genişletilmiş Çoklu Format: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) Metin, Resim, Video ve Ses işler (E2B, E4B ve 12B modellerinde yerel olarak bulunur).
  • Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi bulunurken orta modellerde 256 bin parçalık bağlam penceresi desteklenir.
  • Gelişmiş Kodlama ve Temsilci Yetenekleri: Yerleşik fonksiyon çağrısı desteği ile birlikte kodlama karşılaştırmalarında önemli iyileştirmeler elde ederek son derece yetenekli otonom temsilcilere güç verir.
  • Yerel Sistem İstemi Desteği: Gemma 4, sistem rolü için yerleşik destek sunarak daha yapılandırılmış ve kontrol edilebilir sohbetler sağlar.
  • Çoklu Jeton Tahmini: Tüm Gemma 4 modelleri (E2B, E4B, 12B, 31B ve 26B A4B), spekülatif kod çözme için özel bir taslak modeli içerir. Bu model, kalite kaybı olmadan önemli ölçüde daha hızlı çıkarım sağlar.

Parametre boyutları ve nicemleme

Gemma 4 modelleri 5 parametre boyutunda sunulur: E2B, E4B, 12B, 31B ve 26B A4B. Modeller, varsayılan hassasiyetleriyle (16 bit) veya nicemleme kullanılarak daha düşük bir hassasiyetle kullanılabilir. Farklı boyutlar ve hassasiyetler, yapay zeka uygulamanız için bir dizi dengelemeyi temsil eder. Daha yüksek parametre ve bit sayısına (daha yüksek hassasiyet) sahip modeller genellikle daha yeteneklidir ancak işlem döngüleri, bellek maliyeti ve güç tüketimi açısından çalıştırmak daha pahalıdır. Daha az parametreye ve bit sayısına (daha düşük hassasiyet) sahip modellerin yetenekleri daha azdır ancak yapay zeka göreviniz için yeterli olabilir.

Gemma 4 çıkarım bellek gereksinimleri

Aşağıdaki tabloda, Gemma 4 model sürümlerinin her boyutuyla çıkarım çalıştırmak için gereken yaklaşık GPU veya TPU bellek gereksinimleri ayrıntılı olarak açıklanmaktadır.

Parametreler BF16 (16 bit) SFP8 (8 bit) Q4_0 (4 bit) Mobil Mobil (yalnızca metin)
Gemma 4 E2B 11,4 GB 5,7 GB 2,9 GB 1,1 BG 0,84 GB
Gemma 4 E4B 17,9 GB 8,9 GB 4,5 GB 2,5 GB 2,2 GB
Gemma 4 12B 26,7 GB 13,4 GB 6,7 GB - -
Gemma 4 26B A4B 57,7 GB 28,8 GB 14,4 GB - -
Gemma 4 31B 69,9 GB 34,9 GB 17,5 GB - -

Tablo 1. Parametre sayısına, nicemleme düzeyine ve ek öğelerin yüklenmesi için% 20 ek yüke göre Gemma 4 modellerini yüklemek için gereken yaklaşık GPU veya TPU belleği. Mobil sürümlerde LiteRT-LM kullanılır.

Bellek planlamasıyla ilgili önemli noktalar

  • Verimli Mimari (E2B ve E4B): "E", "etkili" parametreleri anlamına gelir. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirmeler (PLE) içerir. PLE, modele daha fazla katman eklemek yerine her kod çözücü katmanına her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, statik ağırlıkları yüklemek için gereken toplam bellek, etkin parametre sayısının gösterdiğinden daha yüksektir.
  • MoE mimarisi (26B A4B): 26B, uzmanların karışımı bir modeldir. Oluşturma sırasında jeton başına yalnızca 4 milyar parametreyi etkinleştirse de hızlı yönlendirme ve çıkarım hızlarını korumak için 26 milyar parametrenin tamamının belleğe yüklenmesi gerekir. Bu nedenle, temel bellek gereksinimi 4B modelden çok 26B modele yakındır.
  • Yalnızca Temel Ağırlıklar: Yukarıdaki tablodaki tahminler yalnızca statik model ağırlıklarını yüklemek için gereken belleği hesaba katar. Yazılımı veya bağlam penceresini desteklemek için gereken ek VRAM'i içermez.
  • Bağlam Penceresi (KV Önbelleği): Bellek tüketimi, isteminizdeki toplam jeton sayısına ve oluşturulan yanıta göre dinamik olarak artar. Daha büyük bağlam pencereleri, temel model ağırlıklarının yanı sıra önemli ölçüde daha fazla VRAM gerektirir.
  • İnce Ayar Ek Yükü: Gemma modellerinin ince ayarı için bellek gereksinimleri, standart çıkarım için gerekenden çok daha yüksektir. Tam ayak iziniz; geliştirme çerçevesine, grup boyutuna ve tam duyarlıklı ince ayar mı yoksa düşük sıralı uyarlama (LoRA) gibi parametre açısından verimli ince ayar (PEFT) yöntemi mi kullandığınıza bağlıdır.

Kuantizasyona Duyarlı Eğitim (QAT)

Kaliteden en az düzeyde ödün vererek maksimum verimlilik gerektiren dağıtımlar için Gemma, resmi Quantization-Aware Training (QAT) modelleri sunar.

Tamamen eğitilmiş bir modeli sıkıştıran ve kalite düşüşüne yol açabilen standart eğitim sonrası nicemlemenin (PTQ) aksine, QAT, nicemleme simülasyonunu eğitim sürecine entegre eder. Bu sayede model, hassasiyet kaybını telafi etmeyi öğrenir ve yüksek hassasiyetli temelleriyle neredeyse aynı performansı gösteren daha küçük modeller elde edilir.

Hızlı yönlendirme tablosu

Hedef Dağıtım Motoru İndirme Soneki Birincil Kullanım Alanı
llama.cpp / LM Studio (Yerel) {model-name}-qat-q4_0-gguf CPU, Apple Silicon veya tüketici GPU'larında sıfır kurulumlu yerel dağıtım.
vLLM / SGLang SUNUCU: {model-name}-qat-w4a16-ct
MOBİL: {model-name}-qat-mobile-ct
16 bit etkinleştirmelerle 4 bit ağırlıklar kullanan yüksek işleme hızlı çıkarım.
Tahmine Dayalı Kod Çözme MODEL: {model-name}-qat-q4_0-unquantized
DRAFTER: {model-name}-qat-q4_0-unquantized-assistant
Jeton oluşturmayı önemli ölçüde hızlandırmak için birincil modeli, eşleşen MTP taslak modeliyle birlikte çalıştırma. Modelin nicelleştirilmiş olması gerekir.
Diğer biçimler {model-name}-qat-q4_0-unquantized Diğer biçimlere (ör. MLX) dönüştürmek için nicemlenmemiş ağırlıklar
Mobil Dağıtım (Transformers) {model-name}-qat-mobile-transformers Mobil kullanım alanları için optimize edilmiş kenar ağırlıkları. Diğer biçimler için referans olarak kullanılır.

Hugging Face'teki resmi QAT koleksiyonları

  • collections/google/gemma-4-qat-q4_0
    • Kuantize edilmemiş QAT kontrol noktaları (-unquantized / -assistant): Doğrudan QAT işlem hattından çıkarılan yarı duyarlıklı ağırlıklar. Bu modeller, özel aşağı akış derlemesi, araştırma veya yardımcı taslak modelleri kullanılarak spekülatif kod çözme işlemleri için idealdir. Gemma 4 E2B, E4B, 12B, 26B A4B ve 31B için kullanılabilir.
    • GGUF (-gguf): Yerel LLM ekosisteminde anında kullanılabilen kontrol noktaları. Gemma 4 E2B, E4B, 12B, 26B A4B ve 31B için kullanılabilir.
    • Sıkıştırılmış Tensörler (-w4a16-ct): Optimize edilmiş, yüksek eşzamanlılıkta bulut sunumu için compressed-tensors standardında yerel olarak serileştirilir. Gemma 4 E2B, E4B, 12B ve 31B için kullanılabilir.
  • collections/google/gemma-4-qat-mobile
    • Mobil cihazlar için optimize edilmiş (-mobile-transformers / -mobile-ct): Özellikle mobil donanım sınırlamaları için tasarlanmış özel bir wNa8o8 şeması üzerine kurulmuştur. Kenar işlemcileri tıkamadan cihaz üzerinde RAM tasarrufunu en üst düzeye çıkarmak için hedeflenen 2 bitlik kod çözme katmanları, optimize edilmiş KV önbellekleri ve statik etkinleştirmeler kullanır. Gemma 4 E2B ve E4B için kullanılabilir.

Tüm resmi Gemma 4 QAT kontrol noktalarına doğrudan Kaggle'dan da erişilebilir.

Önceki Gemma modelleri

Kaggle ve Hugging Face'te de bulunan önceki nesil Gemma modelleriyle çalışabilirsiniz. Önceki Gemma modelleri hakkında daha fazla teknik bilgi için aşağıdaki model kartı sayfalarına bakın:

Oluşturmaya başlamaya hazır mısınız? Gemma modellerini kullanmaya başlayın.