Çoklu jeton tahmini ile Gemma 4'ü hızlandırma

Gemma 4'te, Çoklu Jeton Tahmini (MTP), son derece verimli spekülatif kod çözmeyi etkinleştirmek için kullanılan özel mimaridir. Tahmini kod çözme, büyük dil modellerinde çıkarımı hızlandırmak için kullanılan bir tekniktir. Yalnızca büyük hedef modele güvenerek belirteçleri otoregresif olarak oluşturmak (her yeni belirteç, önceki belirteçlere bağlı olacak şekilde tek seferde bir belirteç oluşturma) yerine, daha küçük ve daha hızlı bir "taslak modeli" birkaç belirteç öncesini tahmin eder. Hedef model daha sonra bu taslak jetonları paralel olarak doğrular. Hedef model, taslak jetonu reddederse yine de bu konum için doğru jetonu üretir (böylece adımın boşa gitmemesi sağlanır) ve taslak model, bu yeni doğru jetondan tahmin yapmaya devam eder.

Gemma 4, temel modeli bu daha küçük ve daha hızlı taslak modeliyle genişleterek MTP'yi uygular. Bu taslak model, giriş yerleştirme tablosunu hedef modelle paylaştığı ve doğrudan son katman etkinleştirmeleri üzerine kurulduğu için bağımsız değildir. Bu sayede, standart otoregresif üretimle aynı kalite garanti edilirken kod çözme hızında önemli ölçüde artış sağlanır. Bu da kontrol noktalarını düşük gecikmeli ve cihaz üzerinde uygulamalar için mükemmel hale getirir.

Tahmini kod çözme, birkaç jeton taslağı oluşturup bunları tek bir ileri geçişte doğrulayarak çalışır. Yoğun modellerde her jeton için aynı ağırlıklar kullanıldığından, taslak hâlindeki birden fazla jetonun doğrulanması minimum ek yük getirir. Gemma 4 26B A4B gibi uzman karışımı (MoE) modeller farklı şekilde çalışır. Her jeton farklı uzmanları etkinleştirebileceğinden, taslak jetonların doğrulanması için ek uzman ağırlıklarının bellekten yüklenmesi gerekebilir. Bu durum, taslak oluşturmadan elde edilen kazançları telafi eder. Daha yüksek toplu iş boyutlarında, etkinleştirilen uzmanlar arasında genellikle daha fazla çakışma olur. Bu da yüklenen ağırlıkların yeniden kullanımını iyileştirir. 1'lik grup boyutunda bu çakışma sınırlıdır. Bu nedenle, 26B A4B taslağı, iyi paralelliğe sahip olmayan donanım platformlarında hızlanma sağlamayabilir.

MTP geliştirmeleri

Gemma 4, taslak oluşturulan parçaların kalitesini ve verimliliğini artırmak için standart spekülatif kod çözme ardışık düzeninde çeşitli geliştirmeler sunar:

  • Paylaşılan Giriş Yerleştirmeleri: Taslak modeli, giriş yerleştirme tablosunu hedef modelle paylaşır.
  • Hedef Etkinleştirmeler: Taslak model, hedef modelin son katmanındaki etkinleştirmeleri kullanır, bunları jeton yerleştirmeleriyle birleştirir ve taslak modelin boyutuna indirger.
  • Verimli Yerleştirme: Model, tüm kelime dağarcığı genelinde tahmin yapmanın maliyetli olmasını önlemek için benzer jetonları kümeler halinde gruplandırır. Önce en olası kümeleri belirler, ardından son hesaplamalarını yalnızca bu seçili kümelerdeki jetonlarla (yalnızca E2B ve E4B) sınırlar.