Metin, ses ve resim girişi ile 256 bin parçaya kadar uzun bağlam penceresi sunan Gemma 4 yayınlandı. Daha fazla bilgi

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemma 4 modeline genel bakış

Gemma, üretken yapay zeka modelleri ailesidir ve soru yanıtlama, özetleme ve akıl yürütme gibi çok çeşitli üretkenlik görevlerinde kullanılabilir. Gemma modelleri açık ağırlıklarla sağlanır ve sorumlu ticari kullanıma izin verir. Bu sayede, modelleri kendi projelerinizde ve uygulamalarınızda ayarlayıp dağıtabilirsiniz.

Gemma 4 model ailesi, belirli donanım gereksinimlerine göre uyarlanmış üç farklı mimariden oluşur:

Küçük Boyutlar: Ultra mobil, uç ve tarayıcı dağıtımı için oluşturulmuş 2B ve 4B etkili parametre modelleri (ör. Pixel, Chrome).
Yoğun: Sunucu düzeyinde performans ile yerel yürütme arasındaki boşluğu kapatan güçlü bir 31 milyar parametreli yoğun modeldir.
Mixture-of-Experts: Yüksek işleme hızı ve gelişmiş akıl yürütme için tasarlanmış son derece verimli bir 26 milyar parametreli MoE modelidir.

Gemma 4 modellerini Kaggle ve Hugging Face'ten indirebilirsiniz. Gemma 4 ile ilgili daha fazla teknik bilgi için Model Kartı'na bakın. Gemma temel modellerinin önceki sürümleri de indirilebilir. Daha fazla bilgi için Önceki Gemma modelleri başlıklı makaleyi inceleyin.

Kaggle'dan indirin Hugging Face'ten indirin

Özellikler

Gerekçe: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli muhakeme araçları olarak tasarlanmıştır.
Genişletilmiş Çoklu Format: Değişken en-boy oranına sahip metin ve resim (tüm modeller), video ve ses (E2B ve E4B modellerinde yerel olarak bulunur) işler.
Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi bulunurken orta modellerde 256 bin parçalık bağlam penceresi desteklenir.
Gelişmiş Kodlama ve Temsilci Yetenekleri: Yerleşik fonksiyon çağrısı desteği ile birlikte kodlama karşılaştırmalarında önemli iyileştirmeler sağlayarak son derece yetenekli otonom temsilciler sunar.
Yerel Sistem İstemi Desteği: Gemma 4, sistem rolü için yerleşik destek sunarak daha yapılandırılmış ve kontrol edilebilir sohbetler sağlar.
Çok Tokenli Tahmin: Tüm Gemma 4 modelleri (E2B, E4B, 31B ve 26B A4B), spekülatif kod çözme için özel bir taslak modeli içerir. Bu sayede, kalite kaybı olmadan önemli ölçüde daha hızlı çıkarım yapılabilir.

Parametre boyutları ve nicelleştirme

Gemma 4 modelleri 4 parametre boyutunda sunulur: E2B, E4B, 31B ve 26B A4B. Modeller, varsayılan hassasiyetleriyle (16 bit) veya nicemleme kullanılarak daha düşük bir hassasiyetle kullanılabilir. Farklı boyutlar ve hassasiyetler, yapay zeka uygulamanız için bir dizi ödünleşmeyi temsil eder. Daha yüksek parametre ve bit sayısına (daha yüksek hassasiyet) sahip modeller genellikle daha yeteneklidir ancak işlem döngüleri, bellek maliyeti ve güç tüketimi açısından çalıştırmak daha pahalıdır. Daha az parametreye ve bit sayısına (daha düşük hassasiyet) sahip modellerin yetenekleri daha azdır ancak yapay zeka göreviniz için yeterli olabilir.

Gemma 4 çıkarım bellek gereksinimleri

Aşağıdaki tabloda, Gemma 4 model sürümlerinin her boyutuyla çıkarım çalıştırmak için gereken yaklaşık GPU veya TPU bellek gereksinimleri ayrıntılı olarak açıklanmaktadır.

Parametreler	BF16 (16 bit)	SFP8 (8 bit)	Q4_0 (4 bit)
Gemma 4 E2B	9,6 GB	4,6 GB	3,2 GB
Gemma 4 E4B	15 GB	7,5 GB	5 GB
Gemma 4 31B	58,3 GB	30,4 GB	17,4 GB
Gemma 4 26B A4B	48 GB	25 GB	15,6 GB

Tablo 1. Gemma 4 modellerini parametre sayısına ve nicemleme düzeyine göre yüklemek için gereken yaklaşık GPU veya TPU belleği.

Bellek planlamasıyla ilgili önemli noktalar

Verimli Mimari (E2B ve E4B): "E", "etkili" parametreleri anlamına gelir. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirmeler (PLE) içerir. PLE, modele daha fazla katman eklemek yerine her kod çözücü katmanına her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, statik ağırlıkları yüklemek için gereken toplam bellek, etkin parametre sayısının gösterdiğinden daha fazladır.
MoE mimarisi (26B A4B): 26B, uzmanların karışımı bir modeldir. Oluşturma sırasında jeton başına yalnızca 4 milyar parametre etkinleştirilse de hızlı yönlendirme ve çıkarım hızlarını korumak için 26 milyar parametrenin tamamının belleğe yüklenmesi gerekir. Bu nedenle, temel bellek gereksinimi 4B modelden çok 26B modele yakındır.
Yalnızca Temel Ağırlıklar: Önceki tablodaki tahminler yalnızca statik model ağırlıklarını yüklemek için gereken belleği hesaba katar. Yazılımı veya bağlam penceresini desteklemek için gereken ek VRAM'i içermez.
Bağlam Penceresi (KV Önbelleği): Bellek tüketimi, isteminizdeki toplam jeton sayısına ve oluşturulan yanıta göre dinamik olarak artar. Daha büyük bağlam pencereleri, temel model ağırlıklarına ek olarak önemli ölçüde daha fazla VRAM gerektirir.
İnce ayar ek yükü: Gemma modellerinde ince ayar için bellek gereksinimleri, standart çıkarım için gereken bellekten çok daha yüksektir. Tam ayak iziniz; geliştirme çerçevesine, grup boyutuna ve tam duyarlılıkta ince ayar mı yoksa Low-Rank Adaptation (LoRA) gibi parametre açısından verimli ince ayar (PEFT) yöntemi mi kullandığınıza büyük ölçüde bağlıdır.

Önceki Gemma modelleri

Kaggle ve Hugging Face'te de bulunan önceki nesil Gemma modelleriyle çalışabilirsiniz. Önceki Gemma modelleri hakkında daha fazla teknik bilgi için aşağıdaki model kartı sayfalarına bakın:

Gemma 3 Model Kartı
Gemma 2 Model Kartı
Gemma 1 Model Kartı

Oluşturmaya başlamaya hazır mısınız? Gemma modellerini kullanmaya başlayın.