Gemma 4 u lançua me hyrje teksti, audio dhe imazhi dhe dritare konteksti deri në 256K! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Përmbledhje e modelit DiffusionGemma

DiffusionGemma është një model i hapur eksperimental që eksploron difuzionin e tekstit, një qasje jashtëzakonisht e shpejtë për gjenerimin e tekstit. Bazuar në arkitekturën Gemma 4 26B (4B aktive) Përzierje-e-Ekspertëve (MoE), DiffusionGemma gjeneron tokena duke përdorur difuzion diskret. Ky model me pesha të hapura është multimodal, duke trajtuar hyrjet e tekstit, imazhit dhe videos për të gjeneruar dalje teksti.

E ndërtuar mbi një themel të MoE, DiffusionGemma është projektuar për të përmirësuar shpejtësinë e gjenerimit (tokena për sekondë) ndërkohë që mbetet e zbatueshme në mjedise të ndryshme harduerike. DiffusionGemma ndërtohet mbi përparimet arkitekturore dhe të aftësive të Gemma 4, duke prezantuar disa karakteristika kryesore:

Përhapja Diskrete e Tekstit: Kalon nga gjenerimi tradicional i tokenëve shkakësorë në marrjen e mostrave me shumë kanavacë me autoregresiv bllok. Modeli gjeneron tekst duke i hequr zhurmat në mënyrë iterative blloqeve të tokenëve (një "kanavacë") paralelisht për të rritur ndjeshëm shpejtësitë e dekodimit.
Përpunimi Multimodal: Pranon në mënyrë native tekst, imazhe (me mbështetje për raportin e aspektit dhe rezolucionin e ndryshueshëm) dhe hyrje video. (Shënim: Hyrja audio nuk mbështetet).
Arkitektura e Kodimuesit-Dekoduesit: Përdor një kodues autoregresiv për të përpunuar dhe ruajtur në memorje kontekstin e mesazhit, i shoqëruar me heqjen e zhurmës që aplikon vëmendje dypalëshe mbi kanavacën e gjenerimit.
Efikasiteti i Përzierjes së Ekspertëve (MoE): Shfrytëzon një dizajn të rrallë të MoE bazuar në variantin 26B (4B aktiv) të MoE, duke ofruar aftësi të thella arsyetimi me kosto minimale. Kur kuantizohet, përshtatet brenda kufijve prej 18GB VRAM të GPU-ve të konsumatorit, ideale për ekzekutim lokal.
Modaliteti i të Menduarit: Kanalet e integruara të arsyetimit të konfigurueshme i lejojnë modelit të mendojë hap pas hapi përpara se të japë një përgjigje përfundimtare.

Kompromis me modelet tradicionale

Ndërsa modelet tradicionale të gjuhës janë shumë efikase për vendosjet në cloud në shkallë të gjerë, sepse ato mund të grumbullojnë mijëra kërkesa, ekzekutimi i tyre lokalisht për një përdorues të vetëm e lë harduerin të nën-shfrytëzuar. DiffusionGemma e zgjidh këtë problem duke gjeneruar njëkohësisht një bllok të tërë prej 256 tokenësh në vend të një token në të njëjtën kohë, duke maksimizuar performancën e harduerit lokal.

Megjithatë, kjo qasje synon vetëm përdorimin lokal me njëkohësi të ulët, të orientuar drejt konsumatorit; për shkak se dekodimi paralel i tij ofron kthime në rënie nën ngarkesat e punës në cloud me QPS të lartë, avantazhi i xhiros është më i fortë në madhësitë e grupeve të ulëta deri në të mesme në një përshpejtues të vetëm.

Konfigurimi i Rekomanduar i Shërbimit

Për vonesë dhe cilësi optimale, ne rekomandojmë vendosjen me parametrat e mëposhtëm të parazgjedhur për Cilësimet e Mostrimit të Difuzionit:

Parametri	Vlera e rekomanduar	Funksioni	Arsyetimi
Numri maksimal i hapave të heqjes së zhurmës	48	Kufiri i sipërm i numrit të hapave të heqjes së zhurmës për kanavacë.	Një limit i sigurt për numrin e hapave të heqjes së zhurmës. Heqja e zhurmës do të ndalet në më pak hapa kur aktivizohet ndalimi adaptiv, zakonisht 12-16 hapa në varësi të detyrës.
Orari i Temperaturës	Linear 0.8 -> 0.4	Grafiku i shkallëzimit të temperaturës që fillon në një nivel të lartë dhe ulet si funksion i hapave të dezhurmës.	Temperatura e lartë (0.8) inkurajon eksplorimin e hershëm; temperatura e ulët (0.4) bllokon tokenët përfundimtarë.
Ndërprerja e hershme adaptive	Pragu i entropisë: 0.005	Ndërpret ekzekutimin herët nëse A) entropia mesatare e modelit mbi kanavacë është nën pragun, dhe B) nëse dy parashikime të njëpasnjëshme të dezhurmës mbeten identike.	Kërkesat më të thjeshta dhe detyrat e strukturuara si kodi kërkojnë më pak hapa heqjeje të zhurmës, duke mundësuar shpejtësi dinamike të tokenëve për sekondë bazuar në kompleksitetin e detyrës.
Përzgjedhja e tokenëve	Entropia e kufizuar: 0.1	Në çdo hap, mostrat zgjedhin tokenët me entropinë më të ulët në mënyrë që kufiri i tyre i informacionit të ndërsjellë të mbetet nën kufirin e entropisë. Mostrat i rizhurmojnë plotësisht tokenët e pazgjedhur.	Siguron që vetëm tokenët për të cilët modeli është relativisht i sigurt zgjidhen për të rafinuar kanavacën, duke lënë tokenët e tjerë të rafinohen në hapat e mëvonshëm të heqjes së zhurmës.

Merrni në Hugging Face Merrni në Kaggle Qaseni në Vertex

Qasuni te peshat e modelit eksperimental (të lëshuara sipas licencës Apache 2.0), duke ju lejuar ta vendosni atë në projektet dhe aplikacionet tuaja.

Mësoni më shumë rreth arkitekturës DiffusionGemma Provoni DiffusionGemma

Rregullim i imët i DiffusionGemma -s Vendos DiffusionGemma-n