DiffusionGemma model kartı

Hugging Face | GitHub | Lansman Blogu | Belgeler
Lisans: Apache 2.0 | Yazarlar: Google DeepMind

DiffusionGemma, Google DeepMind tarafından oluşturulan bir üretken modeldir. 26B A4B Mixture-of-Experts (MoE) Gemma 4 mimarisine dayanan DiffusionGemma, ayrı difüzyon kullanarak jetonlar oluşturur. Bu açık ağırlıklı model, çok formatlıdır. Metin çıkışı oluşturmak için metin, görüntü ve video girişlerini işler.

DiffusionGemma, bir MoE temeli üzerine kurulmuştur ve çeşitli donanım ortamlarında dağıtılabilirliğini korurken üretim hızını (saniyede jeton sayısı) artırmak için tasarlanmıştır. DiffusionGemma, Gemma 4'ün mimari ve yetenek gelişmelerini temel alır ve çeşitli temel özellikleri kullanıma sunar:

  • Ayrık Metin Difüzyonu: Jeton bazında otomatik regresyondan blok otomatik regresif çoklu tuval örneklemeye geçiş yapar. Bu model, jeton bloklarını (bir "tuval") yinelemeli olarak paralel şekilde gürültüden arındırarak metin oluşturur ve kod çözme hızını önemli ölçüde artırır.
  • Çok formatlı giriş işleme: Metin çıkışları oluşturmak için arasına metin eklenmiş görüntü (değişken en-boy oranı ve çözünürlük desteğiyle) ve video girişlerini işler.
  • Kodlayıcı-Kod Çözücü Mimarisi: İstem bağlamını işleyip önbelleğe almak için otomatik regresif bir kodlayıcı kullanır. Bu kodlayıcı, oluşturma tuvalinde çift yönlü dikkat uygulayan bir kod çözücüyle eşleştirilir.
  • Uzman Karışımı (MoE) Verimliliği: Yerel yürütmeye uygun düşük bellekte kaplanan yeri korurken güçlü akıl yürütme yetenekleri sağlamak için seyrek bir MoE tasarımından (toplam 128 uzman arasından 8 etkin uzman) yararlanır.
  • Düşünme Modu (Akıl Yürütme): Yapılandırılabilir düşünme modlarıyla son derece yetenekli bir akıl yürütme aracı olarak tasarlanmıştır.
  • Küçük toplu çıkarım için optimize edilmiştir: Tek bir yetenekli hızlandırıcıda düşük gecikmeli ve yüksek hızlı üretim için özel olarak tasarlanmıştır.
  • Yerel Sistem İstemi Desteği: Gemma 4'te olduğu gibi, system rolünün güncellenmesini destekleyerek daha yapılandırılmış ve kontrol edilebilir sohbetlere olanak tanır.

Modele Genel Bakış

DiffusionGemma, standart nedensel dil modellerinin sıralı darboğazlarını azaltmak için tasarlanmıştır. Bu model, çıkarım hızı için özel olarak optimize edilmiş bir kodlayıcı-kod çözücü mimarisi kullanır.

Kodlayıcı, ön doldurma kapasitesinde çalışır, ilk istemi işler ve KV önbelleğini oluşturur. Kod çözücü daha sonra, jetonlardan oluşan bir giriş bloğunu ("tuval") işlemek için çift yönlü dikkatten yararlanır ve çapraz dikkat yoluyla önbelleğe alınmış bağlama erişir.

DiffusionGemma, çıkarım sırasında çoklu tuval örneklemesinden yararlanır. Model, her seferinde bir jeton oluşturmak yerine, bir difüzyon örnekleyici kullanarak jetonlardan oluşan tam bir bloğu yinelemeli olarak gürültüden arındırır. Bir tuval tamamen gürültüden arındırıldıktan sonra kodlayıcı tarafından işlenir ve KV önbelleğine eklenir. Ardından model, bir sonraki tuvali oluşturur. Bu blok-otomatik regresif yaklaşım, metin oluşturma işleminin daha yüksek hızlarda yapılmasını sağlar.

DiffusionGemma

| Toplam Parametre | 25,2 Milyar | | Etkin Parametreler | 3,8 Milyar | | Katmanlar | 30 | | Kayar Pencere | 1.024 belirteç | | Bağlam Uzunluğu | 256 bin belirtece kadar | | Tuval Uzunluğu | 256 | | Sözcük Boyutu | 262 bin | | Uzman Sayısı | 8 etkin / 128 toplam ve 1 paylaşılan | | Desteklenen Modlar | Metin, Resim | | Görsel Kodlayıcı Parametreleri | ~550 milyon |

Karşılaştırma Sonuçları

Bu modeller, metin oluşturmanın farklı yönlerini kapsamak için farklı veri kümeleri ve metriklerden oluşan büyük bir koleksiyonla karşılaştırılarak değerlendirildi. Tabloda işaretlenen değerlendirme sonuçları, önerilen Entropy Bound (EB) örnekleyiciyle (aşağıdaki En İyi Uygulamalar bölümüne bakın) talimatlara göre ayarlanmış modeller içindir.

Karşılaştırma DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro %77,6 %82,6
AIME 2026 no tools %69,1 %88,3
LiveCodeBench v6 %69,1 %77,1
Codeforces ELO 1429 1718
GPQA Diamond %73,2 %82,3
Tau2 (3 üzerinden ortalama) %56,2 %68,2
HLE no tools %11,0 %8,7
Arama ile HLE %11,9 %17,2
BigBench Extra Hard %47,6 %64,8
MMMLU %81,5 %86,3
Görme
MMMU Pro %54,3 %73,8
OmniDocBench 1.5 (ortalama düzenleme mesafesi, düşük değer daha iyidir) 0,319 0,149
MATH-Vision %70,5 %82,4
MedXPertQA MM %49,0 %58,1
Uzun Bağlam (Long Context)
MRCR v2 8 iğne 128k (ortalama) %32,0 %44,1

Temel Özellikler

DiffusionGemma, metin ve görüntüyle ilgili çok çeşitli görevleri yerine getirebilir. Temel özellikler:

  • Yüksek Hızlı Üretim: Difüzyon örnekleme yoluyla 256 parça paralel gürültüsüzleştirme, ileri geçiş başına 15-20 parça oluşturarak düşük gecikme sağlar. Bu sayede, düşük grup boyutu ayarlarında (H100, FP8) kullanıcı başına saniyede 1.100'den fazla parça üretilebilir.
  • Uyarlanabilir çıkarım süresi hesaplama: Kod gibi daha basit istemler ve yapılandırılmış görevler daha az gürültü giderme adımı gerektirir. Bu sayede, görev karmaşıklığına göre dinamik saniyede jeton hızları elde edilebilir.
  • Düşünme: Modelin yanıt vermeden önce adım adım düşünmesini sağlayan yerleşik akıl yürütme modu.
  • Uzun Bağlam: 256 bin parçaya kadar bağlam pencereleri.
  • Görüntü yorumlama: Nesne algılama, doküman/PDF ayrıştırma, ekran ve kullanıcı arayüzü yorumlama, grafik yorumlama, OCR (çok dilli dahil), el yazısı tanıma ve işaretleme. Resimler, değişken en boy oranlarında ve çözünürlüklerde işlenebilir.
  • Video Anlama: Kare dizilerini işleyerek video içeriğini analiz edip açıklar.
  • Aralıklı Çok Formatlı Giriş: Bağlam açısından zengin akıl yürütme için tek bir istemde resimleri, videoları ve metinleri karıştırın.
  • İşlev Çağırma: Yapılandırılmış araç kullanımına yönelik yerel destek sunarak bağımsız iş akışlarını etkinleştirir.
  • Kodlama ve Akıl Yürütme: Kod oluşturma, tamamlama ve adım adım mantık yürütme konusunda yeteneklidir.
  • Çok dilli: 35'ten fazla dil için kullanıma hazır destek. 140'tan fazla dilde önceden eğitilmiştir.

En iyi uygulamalar

En iyi performans için aşağıdaki yapılandırmaları ve en iyi uygulamaları kullanın:

1. Difüzyon Örnekleme Ayarları

Tüm kullanım alanlarında aşağıdaki standartlaştırılmış örnekleme yapılandırmasını kullanın:

  • Yöntem: Entropy-Bounded Denoising ve Adaptive Stopping ile difüzyon örnekleme.
  • Örnekleme Yapılandırması:
    • Maksimum gürültü azaltma adımı sayısı = 48
    • Sıcaklık programı (logit şekillendirme için): 0,8 → 0,4 arasında doğrusal azalma
    • Belirteç Seçimi: Örnekleyici, her adımda karşılıklı bilgi sınırı entropi sınırının (0,1) altında kalacak şekilde en düşük entropili belirteçleri seçer.
    • Jeton Gürültüsünü Azaltma: Örnekleyici, seçilmeyen jetonlardaki gürültüyü tamamen azaltır.
  • Uyarlanabilir Durdurma: Örnekleme, yalnızca aşağıdaki koşulların her ikisi de aynı anda karşılanırsa erken sonlandırılır:
    • Güvenilir tahminler: Tuvaldeki ortalama model entropisi, entropi eşiğinin (0,005) altında.
    • Kararlı tahminler: En yüksek olasılıklı jeton tahminleri, art arda iki gürültü giderme adımında aynı kalır.

2. Düşünme Modu Yapılandırması

Gemma 4 modellerine benzer şekilde, standart system, assistant ve user rollerini kullanırız. Düşünme sürecini düzgün bir şekilde yönetmek için aşağıdaki kontrol jetonlarını kullanın:

  • Düşünme Tetikleyicisi: Düşünme, sistem isteminin başına <|think|> simgesi eklenerek etkinleştirilir. Düşünme özelliğini devre dışı bırakmak için jetonu kaldırın (boş bir düşünme kanalı yine de yayınlanabilir).
  • Standart Üretim: Düşünme etkinleştirildiğinde model, bu yapıyı kullanarak nihai yanıtın ardından dahili akıl yürütmesini verir: <|channel>thought\n[Dahili akıl yürütme]<channel|>.
  • Düşünme Davranışı Devre Dışı: Düşünme devre dışı bırakılırsa model, etiketleri yine oluşturur ancak düşünce bloğu boş olur: <|channel>thought\n<channel|>[Son yanıt].

Transformers gibi birçok kitaplığın, sohbet şablonunun karmaşıklığını sizin için ele aldığını unutmayın.

3. Çok Aşamalı Etkileşimler

  • Geçmişte Düşünme İçeriği Yok: Çok aşamalı etkileşimlerde, geçmiş model çıktısı yalnızca son yanıtı içermelidir. Önceki model dönüşlerindeki düşünceler, bir sonraki kullanıcı dönüşü başlamadan önce eklenmemelidir.

4. Yöntem sırası

  • Çok formatlı girişlerle optimum performans elde etmek için isteminizdeki metinden önce resim içeriği yerleştirin.

5. Değişken görüntü çözünürlüğü

Değişken en-boy oranlarının yanı sıra DiffusionGemma, yapılandırılabilir bir görsel jeton bütçesi aracılığıyla değişken görüntü çözünürlüğünü destekler. Bu bütçe, bir görüntüyü temsil etmek için kaç jetonun kullanıldığını kontrol eder. Daha yüksek bir jeton bütçesi, ek işlem maliyetiyle daha fazla görsel ayrıntıyı korurken daha düşük bir bütçe, ayrıntılı anlayış gerektirmeyen görevler için daha hızlı çıkarım sağlar.

  • Desteklenen jeton bütçeleri: 70, 140, 280, 560 ve 1.120.
    • Daha hızlı çıkarım ve çok sayıda karenin işlenmesinin ayrıntılı bilgiden daha önemli olduğu sınıflandırma, altyazı ekleme veya video anlama için daha düşük bütçeler kullanın.
    • OCR, doküman ayrıştırma veya küçük metinleri okuma gibi görevler için daha yüksek bütçeler kullanın.

6. Video Uzunluğu

Tüm modeller, resim girişlerini destekler ve videoları kare olarak işleyebilir. Görüntülerin saniyede bir kare hızında işlendiği varsayıldığında video en fazla 60 saniyeyi destekler.

Model Verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Ön eğitim veri setimiz, Ocak 2025'te sona eren ve web belgeleri, kod, resim, ses gibi çok çeşitli alan ve biçimleri kapsayan büyük ölçekli ve çeşitli bir veri koleksiyonudur. Temel bileşenler şunlardır:

  • Web belgeleri: Çeşitli web metinleri, modelin çok çeşitli dilbilimsel stillere, konulara ve kelime dağarcığına maruz kalmasını sağlar. Eğitim veri kümesi, 140'tan fazla dildeki içerikleri kapsar.
  • Kod: Modelin koda maruz kalması, programlama dillerinin söz dizimini ve kalıplarını öğrenmesine yardımcı olur. Bu da kod oluşturma ve kodla ilgili soruları anlama becerisini geliştirir.
  • Matematik: Matematiksel metinlerle eğitim, modelin mantıksal akıl yürütmeyi, sembolik temsili öğrenmesine ve matematiksel sorguları yanıtlamasına yardımcı olur.
  • Görüntüler: Çok çeşitli görüntüler, modelin görüntü analizi ve görsel veri çıkarma görevlerini gerçekleştirmesini sağlar.

Bu çeşitli veri kaynaklarının birleştirilmesi, çok çeşitli görevleri ve veri biçimlerini işleyebilen güçlü bir çok formatlı modelin eğitilmesi için çok önemlidir.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:

  • CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
  • Hassas Veri Filtreleme: Gemma önceden eğitilmiş modellerini güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
  • Ek yöntemler: Politikalarımız doğrultusunda içerik kalitesine ve güvenliğine göre filtreleme.

Etik ve Güvenlik (Ethics and Safety)

Açık modeller kurumsal altyapının merkezine yerleştikçe, köken ve güvenlik büyük önem kazanıyor. Google DeepMind tarafından geliştirilen DiffusionGemma, tescilli Gemini modellerimizle aynı titiz güvenlik değerlendirmelerinden geçer.

Değerlendirme Yaklaşımı

DiffusionGemma, kurum içi güvenlik ve sorumlu yapay zeka ekipleriyle ortaklaşa geliştirildi. Model güvenliğini artırmak için çeşitli otomatik ve insan değerlendirmeleri yapıldı. Bu değerlendirmeler, Google'ın yapay zeka ilkelerinin yanı sıra üretken yapay zeka modellerimizin aşağıdakiler de dahil olmak üzere zararlı içerik oluşturmasını önlemeyi amaçlayan güvenlik politikalarıyla uyumludur:

  • Çocukların cinsel istismarı nitelikli materyal ve çocuk istismarı ile ilgili içerikler
  • Tehlikeli içerikler (ör. intiharı teşvik etme veya gerçek dünyada zarara yol açabilecek faaliyetlerle ilgili talimatlar verme)
  • Müstehcen içerik
  • Nefret söylemi (ör. koruma altındaki grupların üyelerini insanlıktan çıkarma)
  • Taciz (ör. insanlara karşı şiddeti teşvik etme)

Değerlendirme Sonuçları

Güvenlik testinin tüm alanlarında, önceki nesil Gemma modellerine kıyasla içerik güvenliğinin tüm kategorilerinde büyük iyileşmeler gördük. Genel olarak DiffusionGemma, Gemma 4 modelleri gibi, güvenlik iyileştirmesinde Gemma 3 ve 3n modellerinden önemli ölçüde daha iyi performans gösterirken gerekçesiz retleri düşük tuttu. Tüm testler, modelin ham yeteneklerini ve temel davranışlarını değerlendirmek için güvenlik filtreleri olmadan kasıtlı olarak yapıldı. Hem metinden metne hem de resimden metne dönüştürme işlemlerinde ve tüm model boyutlarında model, minimum düzeyde politika ihlali üretti ve önceki Gemma modellerine göre önemli iyileşmeler gösterdi.

Kullanım ve Sınırlamalar

Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

Çok formatlı modeller (görüntü, dil ve/veya ses işleyebilir) çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model geliştiricilerin model eğitimi ve geliştirme sürecinde dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgi sağlamaktır.

  • İçerik Oluşturma ve İletişim
    • Metin Oluşturma: Şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturur.
    • Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri destekler.
    • Metin Özetleme: Metin korpusu, araştırma makaleleri veya raporların kısa özetlerini oluşturur.
    • Görüntü Verisi Çıkarma: Metin iletişimleri için görsel verileri çıkarır, yorumlar ve özetler.
  • Araştırma ve Eğitim
    • Doğal Dil İşleme (NLP) ve VLM Araştırması: Araştırmacıların VLM ve NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel oluşturur.
    • Dil Öğrenme Araçları: Dil öğrenme deneyimlerini destekleyerek dil bilgisi düzeltme veya yazma alıştırması yapma konusunda yardımcı olur.
    • Bilgi Keşfi: Araştırmacıların büyük metinleri keşfetmesine yardımcı olmak için özetler oluşturur veya belirli konularla ilgili soruları yanıtlar.

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verisindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde ele alabileceği konu alanlarını belirler.
  • Bağlam ve Görev Karmaşıklığı
    • Model, net istemler ve talimatlarla çerçevelenebilen görevlerde iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Modelin performansı, sağlanan bağlam miktarıyla etkilenebilir (daha uzun bağlamlar genellikle belirli bir noktaya kadar daha iyi sonuçlar verir).
  • Dil Belirsizliği ve İnce Anlamlar
    • Doğal dil, doğası gereği karmaşıktır. Model, ince ayrıntıları, alaycı ifadeleri veya mecazi dili anlamakta zorlanabilir.
  • Doğruluk
    • Model, eğitim veri kümelerinden öğrendiği bilgilere göre yanıtlar oluşturur ancak bunlar bilgi tabanı değildir. Yanlış veya eski olgusal ifadeler üretebilir.
  • Common Sense
    • Model, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme yeteneği eksik olabilir.

Etik hususlar ve riskler

Açık bir vizyon-dil modeli oluştururken aşağıdakileri dikkatlice göz önünde bulundurduk:

  • Önyargı ve Adalet
    • Büyük ölçekli, gerçek dünya metin ve resim verileriyle eğitilen VLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. DiffusionGemma, bu kartta belirtildiği gibi dikkatli bir inceleme, giriş verisi ön işleme ve eğitim sonrası değerlendirmelerden geçirilerek bu önyargıların riskini azaltmaya yardımcı olmuştur.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • VLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili yönergeler için Sorumlu Üretken Yapay Zeka Araç Seti'ne bakın.
  • Şeffaflık ve Sorumluluk
    • Bu model kartında, modelin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleriyle ilgili ayrıntılar özetlenmektedir.
    • Sorumlu bir şekilde geliştirilen açık model, yapay zeka ekosistemindeki geliştiricilerin ve araştırmacıların VLM teknolojisine erişmesini sağlayarak yenilikleri paylaşma fırsatı sunar.

Belirlenen riskler ve azaltma önlemleri:

  • Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve yönergeler çok önemlidir. Geliştiricilerin dikkatli olması ve kendi ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri uygulaması önerilir.
  • Kötü amaçlı kullanım: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, VLMs'nin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitici kaynaklar ve bildirme mekanizmaları sağlanır.
  • Gizlilik ihlalleri: Modeller, belirli kişisel bilgilerin ve diğer hassas verilerin kaldırılması için filtrelenen verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilikle ilgili yönetmeliklere uymaları önerilir.
  • Önyargıların devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri, inceleme uzmanı incelemesi kullanılarak) ve önyargıları giderme tekniklerinin araştırılması önerilir.

Avantajlar

Bu model, yayınlandığı sırada geliştiriciler ve difüzyon dil modellerini araştırmaya ilgi duyanlar için cazip bir seçenek sunan, düşük gecikmeli ve yüksek performanslı açık bir vizyon-dil modelidir. Model, benzer boyutlardaki modellere kıyasla sorumlu yapay zeka geliştirmeye yönelik olarak sıfırdan tasarlanmıştır.