Gemma, üretken yapay zeka modelleri ailesidir ve soru yanıtlama, özetleme ve akıl yürütme gibi çok çeşitli üretkenlik görevlerinde kullanılabilir. Gemma modelleri açık ağırlıklarla sağlanır ve sorumlu ticari kullanıma izin verir. Bu sayede, modelleri kendi projelerinizde ve uygulamalarınızda ayarlayıp dağıtabilirsiniz.
Gemma 4 model ailesi, belirli donanım gereksinimlerine göre uyarlanmış üç farklı mimariden oluşur:
- Küçük Boyutlar: Ultra mobil, uç ve tarayıcı dağıtımı için oluşturulmuş 2B ve 4B etkili parametre modelleri (ör. Pixel, Chrome).
- Yoğun: Sunucu düzeyinde performans ile yerel yürütme arasındaki boşluğu kapatan güçlü bir 31 milyar parametreli yoğun modeldir.
- Mixture-of-Experts: Yüksek işleme hızı ve gelişmiş akıl yürütme için tasarlanmış son derece verimli bir 26 milyar parametreli MoE modelidir.
Gemma 4 modellerini Kaggle ve Hugging Face'ten indirebilirsiniz. Gemma 4 ile ilgili daha fazla teknik bilgi için Model Kartı'na bakın. Gemma temel modellerinin önceki sürümleri de indirilebilir. Daha fazla bilgi için Önceki Gemma modelleri başlıklı makaleyi inceleyin.
Kaggle'dan indirin Hugging Face'ten indirin
Özellikler
- Gerekçe: Ailedeki tüm modeller, yapılandırılabilir düşünme modlarıyla son derece yetenekli muhakeme araçları olarak tasarlanmıştır.
- Genişletilmiş Çoklu Format: Değişken en-boy oranı ve çözünürlük desteğiyle (tüm modeller) Metin, Resim, Video ve Ses işler (E2B ve E4B modellerinde yerel olarak bulunur).
- Daha büyük bağlam penceresi: Küçük modellerde 128 bin parçalık bağlam penceresi bulunurken orta modellerde 256 bin parçalık bağlam penceresi desteklenir.
- Gelişmiş Kodlama ve Temsilci Yetenekleri: Yerleşik fonksiyon çağrısı desteği ile birlikte kodlama karşılaştırmalarında önemli iyileştirmeler elde ederek son derece yetenekli otonom temsilciler sunar.
- Yerel Sistem İstemi Desteği: Gemma 4, sistem rolü için yerleşik destek sunarak daha yapılandırılmış ve kontrol edilebilir sohbetler sağlar.
Parametre boyutları ve nicelleştirme
Gemma 4 modelleri 4 parametre boyutunda sunulur: E2B, E4B, 31B ve 26B A4B. Modeller, varsayılan hassasiyetleriyle (16 bit) veya nicemleme kullanılarak daha düşük bir hassasiyetle kullanılabilir. Farklı boyutlar ve hassasiyetler, yapay zeka uygulamanız için bir dizi ödünleşmeyi temsil eder. Daha yüksek parametre ve bit sayısına (daha yüksek hassasiyet) sahip modeller genellikle daha yeteneklidir ancak işlem döngüleri, bellek maliyeti ve güç tüketimi açısından çalıştırmak daha pahalıdır. Daha az parametreye ve bit sayısına (daha düşük hassasiyet) sahip modellerin yetenekleri daha azdır ancak yapay zeka göreviniz için yeterli olabilirler.
Gemma 4 çıkarım bellek gereksinimleri
Aşağıdaki tabloda, Gemma 4 model sürümlerinin her boyutuyla çıkarım çalıştırmak için gereken yaklaşık GPU veya TPU bellek gereksinimleri ayrıntılı olarak açıklanmaktadır.
| Parametreler | BF16 (16 bit) | SFP8 (8 bit) | Q4_0 (4 bit) |
|---|---|---|---|
| Gemma 4 E2B | 9,6 GB | 4,6 GB | 3,2 GB |
| Gemma 4 E4B | 15 GB | 7,5 GB | 5 GB |
| Gemma 4 31B | 58,3 GB | 30,4 GB | 17,4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15,6 GB |
Tablo 1. Parametre sayısına ve nicemleme düzeyine göre Gemma 4 modellerini yüklemek için gereken yaklaşık GPU veya TPU belleği.
Bellek planlamasıyla ilgili önemli noktalar
- Verimli Mimari (E2B ve E4B): "E", "etkili" parametreleri anlamına gelir. Daha küçük modeller, cihaz üzerinde dağıtımlarda parametre verimliliğini en üst düzeye çıkarmak için Katman Başına Yerleştirmeler (PLE) içerir. PLE, modele daha fazla katman eklemek yerine her kod çözücü katmanına her jeton için kendi küçük yerleştirmesini verir. Bu yerleştirme tabloları büyüktür ancak yalnızca hızlı aramalar için kullanılır. Bu nedenle, statik ağırlıkları yüklemek için gereken toplam bellek, etkin parametre sayısının önerdiğinden daha yüksektir.
- MoE mimarisi (26B A4B): 26B, uzmanların karışımı bir modeldir. Oluşturma sırasında jeton başına yalnızca 4 milyar parametre etkinleştirilse de hızlı yönlendirme ve çıkarım hızlarını korumak için 26 milyar parametrenin tamamının belleğe yüklenmesi gerekir. Bu nedenle, temel bellek gereksinimi 4B modelden çok 26B modele yakındır.
- Yalnızca Temel Ağırlıklar: Önceki tablodaki tahminler yalnızca statik model ağırlıklarını yüklemek için gereken belleği hesaba katar. Yazılımı veya bağlam penceresini desteklemek için gereken ek VRAM'i içermez.
- Bağlam Penceresi (KV Önbelleği): Bellek tüketimi, isteminizdeki toplam jeton sayısına ve oluşturulan yanıta göre dinamik olarak artar. Daha büyük bağlam pencereleri, temel model ağırlıklarına ek olarak önemli ölçüde daha fazla VRAM gerektirir.
- İnce ayar ek yükü: Gemma modellerinde ince ayar için bellek gereksinimleri, standart çıkarım için gereken bellekten çok daha yüksektir. Tam ayak iziniz; geliştirme çerçevesine, grup boyutuna ve tam duyarlılıkta ince ayar mı yoksa Low-Rank Adaptation (LoRA) gibi parametre açısından verimli ince ayar (PEFT) yöntemi mi kullandığınıza büyük ölçüde bağlıdır.
Önceki Gemma modelleri
Kaggle ve Hugging Face'te de bulunan önceki nesil Gemma modelleriyle çalışabilirsiniz. Önceki Gemma modelleriyle ilgili daha fazla teknik bilgi için aşağıdaki model kartı sayfalarına bakın:
- Gemma 3 Model Kartı
- Gemma 2 Model Kartı
- Gemma 1 Model Kartı
Oluşturmaya hazır mısınız? Gemma modellerini kullanmaya başlayın.