DiffusionGemma, metin üretimi için son derece hızlı bir yaklaşım olan metin difüzyonunu keşfeden deneysel bir açık modeldir. 26B (4B etkin) Uzman Karışımı (MoE) Gemma 4 mimarisine dayanan DiffusionGemma, ayrı difüzyon kullanarak jetonlar üretir. Bu açık ağırlıklı model, metin çıkışı oluşturmak için metin, görüntü ve video girişlerini işleyen çok formatlı bir modeldir.
DiffusionGemma, bir MoE temeli üzerine kurulmuştur ve çeşitli donanım ortamlarında dağıtılabilirliğini korurken üretim hızını (saniyede jeton sayısı) artırmak için tasarlanmıştır. DiffusionGemma, Gemma 4'ün mimari ve yetenek gelişmelerini temel alır ve çeşitli temel özellikleri kullanıma sunar:
- Ayrık Metin Difüzyonu: Geleneksel nedensel jeton oluşturmadan uzaklaşarak blok-otomatik gerilemeli çoklu tuval örneklemeye geçiş yapar. Model, kod çözme hızını önemli ölçüde artırmak için paralel olarak jeton bloklarını ("tuval") yinelemeli olarak gürültüden arındırarak metin oluşturur.
- Çok formatlı işleme: Metin, resim (değişken en-boy oranı ve çözünürlük desteğiyle) ve video girişlerini doğal olarak kabul eder. (Not: Ses girişi desteklenmez.)
- Kodlayıcı-Kod Çözücü Mimarisi: İstem bağlamını işlemek ve önbelleğe almak için otomatik gerileme kodlayıcı kullanır. Bu kodlayıcı, oluşturma tuvalinde çift yönlü dikkat uygulayan gürültü azaltma ile eşleştirilir.
- Uzman Karışımı (MoE) Verimliliği: 26 milyar parametreli (4 milyar etkin) MoE varyantına dayalı seyrek bir MoE tasarımından yararlanarak minimum ek yükle derin akıl yürütme özellikleri sunar. Kuantize edildiğinde, tüketici GPU'larının 18 GB VRAM sınırları içinde yer alır ve yerel yürütme için idealdir.
- Düşünme Modu: Yerleşik yapılandırılabilir akıl yürütme kanalları, modelin nihai yanıtı vermeden önce adım adım düşünmesini sağlar.
Geleneksel modellerle ilgili dezavantajlar
Geleneksel dil modelleri, binlerce isteği toplu olarak işleyebildikleri için büyük ölçekli bulut dağıtımlarında oldukça verimlidir. Ancak tek bir kullanıcı için yerel olarak çalıştırıldıklarında donanım yeterince kullanılmaz. DiffusionGemma, bu sorunu her seferinde bir jeton yerine 256 jetonluk bir bloğun tamamını aynı anda oluşturarak çözer ve yerel donanım performansını en üst düzeye çıkarır.
Ancak bu yaklaşım, kesinlikle tüketiciye yönelik, düşük eşzamanlılıkta yerel kullanım için tasarlanmıştır. Paralel kod çözme özelliği, yüksek QPS'li bulut iş yüklerinde azalan getiriler sunduğundan, işleme hızı avantajı tek bir hızlandırıcıda düşük ila orta toplu iş boyutlarında en güçlüdür.
Önerilen yayın yapılandırması
Optimum gecikme süresi ve kalite için aşağıdaki varsayılan parametrelerle dağıtım yapmanızı öneririz:
| Parametre | Önerilen Değer | İşlev | Gerekçe |
|---|---|---|---|
| Maksimum gürültü azaltma adımı sayısı | 48 | Tuval başına gürültü giderme adımı sayısının üst sınırı. | Gürültü azaltma adımlarının sayısı için güvenli bir sınır. Uyarlanabilir durdurma etkinleştirildiğinde gürültü azaltma işlemi daha az adımda durdurulur. Bu işlem, göreve bağlı olarak genellikle 12-16 adımda tamamlanır. |
| Sıcaklık Programı | Doğrusal 0,8 -> 0,4 | Yüksekten başlayıp gürültü azaltma adımlarının bir fonksiyonu olarak azalan sıcaklık ölçeklendirme planı. | Yüksek sıcaklık (0,8), erken keşfi teşvik ederken düşük sıcaklık (0,4) son jetonları kilitler. |
| Uyarlanabilir erken durdurma | Entropi eşiği: 0,005 | A) Tuvaldeki ortalama model entropisi eşiğin altındaysa ve B) iki ardışık gürültü giderici tahmini aynı kalırsa yürütmeyi erken durdurur. |
Daha basit istemler ve kod gibi yapılandırılmış görevler daha az gürültü giderme adımı gerektirir. Bu sayede, görev karmaşıklığına bağlı olarak dinamik saniyede jeton hızları elde edilebilir. |
| Jeton seçimi | Entropi sınırı: 0,1 | Örnekleyici, her adımda karşılıklı bilgi sınırı entropi sınırının altında kalacak şekilde en düşük entropili jetonları seçer. Örnekleyici, seçilmeyen jetonları tamamen yeniden gürültülendirir. | Tuvali iyileştirmek için yalnızca modelin nispeten emin olduğu jetonların seçilmesini sağlar. Diğer jetonlar sonraki gürültü azaltma adımlarında iyileştirilir. |
Hugging Face'te kullanın Kaggle'da kullanın Vertex'te erişin
Deneysel model ağırlıklarına (Apache 2.0 lisansı kapsamında yayınlanmıştır) erişerek kendi projelerinizde ve uygulamalarınızda dağıtabilirsiniz.
DiffusionGemma mimarisi hakkında daha fazla bilgi edinin DiffusionGemma'yı deneyin