Fytyrë përqafuese | GitHub | Blogu i lançimit | Dokumentacioni
Licenca : Apache 2.0 | Autorët : Google DeepMind
DiffusionGemma është një model gjenerues i ndërtuar nga Google DeepMind. Bazuar në arkitekturën 26B A4B Mixture-of-Experts (MoE) Gemma 4, DiffusionGemma gjeneron tokena duke përdorur difuzion diskret. Ky model me pesha të hapura është multimodal, duke trajtuar hyrjet e tekstit, imazhit dhe videos për të gjeneruar dalje teksti.
E ndërtuar mbi një themel të MoE, DiffusionGemma është projektuar për të përmirësuar shpejtësinë e gjenerimit (tokena për sekondë) ndërkohë që mbetet e zbatueshme në mjedise të ndryshme harduerike. DiffusionGemma ndërtohet mbi përparimet arkitekturore dhe të aftësive të Gemma 4, duke prezantuar disa karakteristika kryesore:
- Përhapja Diskrete e Tekstit – Kalon nga autoregresioni token-pas-token në marrjen e mostrave shumë-kanavacë-autoregresive bllok-blloqe. Ai gjeneron tekst duke i hequr zhurmat në mënyrë iterative blloqeve të token-eve (një 'kanavacë') paralelisht, duke rritur ndjeshëm shpejtësinë e dekodifikimit.
- Përpunimi Multimodal i të Dhënave Hyrëse – Përpunon tekstin e ndërthurur, imazhin (me mbështetje për raportin e aspektit dhe rezolucionin e ndryshueshëm) dhe të dhënat hyrëse video për të gjeneruar rezultate teksti.
- Arkitektura Kodim-Dekodues – Përdor një kodues autoregresiv për të përpunuar dhe ruajtur në memorje kontekstin e kërkesës, i shoqëruar me një dekoder që aplikon vëmendje dypalëshe mbi kanavacën e gjenerimit.
- Efikasiteti i Përzierjes së Ekspertëve (MoE) – Shfrytëzon një dizajn të rrallë të MoE (8 ekspertë aktivë nga 128 gjithsej) për të ofruar aftësi të forta arsyetimi, duke ruajtur një gjurmë të ulët memorieje të përshtatshme për ekzekutim lokal.
- Modaliteti i të Menduarit (Arsyetimi) – I projektuar si një arsyetues shumë i aftë, me mënyra të të menduarit të konfigurueshme.
- Optimizuar për Inferencë të Madhësisë së Vogël të Grupit – I projektuar posaçërisht për gjenerim me latencë të ulët dhe shpejtësi të lartë në një përshpejtues të vetëm të aftë.
- Mbështetje për Promptin e Sistemit Nativ – Ashtu si me Gemma 4, ajo mbështet përditësimin e rolit të
system, duke mundësuar biseda më të strukturuara dhe të kontrollueshme.
Përmbledhje e modelit
DiffusionGemma është projektuar për të zvogëluar pengesat sekuenciale të modeleve standarde të gjuhës shkakësore. Ai përdor një arkitekturë kodues-dekodues të optimizuar posaçërisht për shpejtësinë e nxjerrjes së përfundimeve.
Kodifikuesi vepron në një kapacitet paraprak, duke përpunuar kërkesën fillestare dhe duke gjeneruar memorjen e përkohshme KV. Dekoderi më pas përdor vëmendjen dypalëshe për të përpunuar një bllok hyrjeje (një 'kanavacë') të tokenëve, duke aksesuar kontekstin e ruajtur në memorje të përkohshme nëpërmjet vëmendjes së kryqëzuar.
Gjatë nxjerrjes së përfundimeve, DiffusionGemma shfrytëzon marrjen e mostrave me shumë kanavacë. Në vend që të gjenerojë një token në të njëjtën kohë, modeli në mënyrë iterative heq zhurmën nga një bllok i plotë tokenësh duke përdorur një mostër difuzioni. Pasi një kanavacë të jetë hequr plotësisht nga zhurma, ajo përpunohet nga enkoduesi dhe i shtohet memorjes KV, pas së cilës modeli gjeneron kanavacën tjetër. Kjo qasje bllok-autoregresive lehtëson gjenerimin e tekstit me shpejtësi më të larta.
DiffusionGemma
| Parametrat Totalë | 25.2B | | Parametrat Aktivë | 3.8B | | Shtresa | 30 | | Dritare Rrëshqitëse | 1024 tokena | | Gjatësia e Kontekstit | Deri në 256K tokena | | Gjatësia e Kanavacës | 256 | | Madhësia e Fjalorit | 262K | | Numri i Ekspertëve | 8 aktivë / 128 gjithsej dhe 1 i ndarë | | Modalitete të Mbështetura | Tekst, Imazh | | Parametrat e Enkoderit të Vizionit | ~550M |
Rezultatet e pikës referuese
Këto modele u vlerësuan kundrejt një koleksioni të madh të të dhënave dhe metrikave të ndryshme për të mbuluar aspekte të ndryshme të gjenerimit të tekstit. Rezultatet e vlerësimit të shënuara në tabelë janë për modele të akorduara sipas udhëzimeve, me mostrën e rekomanduar të Entropisë së Kufizuar (EB) (shih Praktikat më të Mira më poshtë).
| Standardi | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 pa mjete | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| Codeforces ELO | 1429 | 1718 |
| Diamond GPQA | 73.2% | 82.3% |
| Tau2 (mesatarja mbi 3) | 56.2% | 68.2% |
| HLE pa mjete | 11.0% | 8.7% |
| HLE me kërkim | 11.9% | 17.2% |
| BigBench Ekstra i Fortë | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| Vizioni | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (distanca mesatare e redaktimit, sa më e ulët aq më mirë) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| Kontekst i gjatë | ||
| MRCR v2 8 gjilpëra 128k (mesatarja) | 32.0% | 44.1% |
Aftësitë kryesore
DiffusionGemma trajton një gamë të gjerë detyrash në tekst dhe vizual. Aftësitë kryesore përfshijnë:
- Gjenerim me Shpejtësi të Lartë - heqja paralele e zhurmës së 256 tokenëve nëpërmjet marrjes së mostrave me difuzion arrin latencë të ulët duke gjeneruar 15-20 tokena për kalim përpara, duke zhbllokuar shpejtësi gjenerimi për përdorues që tejkalojnë 1100 tokena për sekondë në cilësimet me madhësi të ulët grupi (H100, FP8).
- Llogaritja e Kohës së Inferencës Adaptive - Kërkesat më të thjeshta dhe detyrat e strukturuara si kodi kërkojnë më pak hapa heqjeje të zhurmës, duke mundësuar shpejtësi dinamike të tokenëve për sekondë bazuar në kompleksitetin e detyrës.
- Të menduarit – Modalitet i integruar arsyetimi që e lejon modelin të mendojë hap pas hapi përpara se të përgjigjet.
- Kontekst i Gjatë – Dritaret e kontekstit deri në 256 mijë tokena.
- Kuptimi i Imazhit – Zbulimi i objekteve, analizimi i dokumenteve/PDF-ve, kuptimi i ekranit dhe i ndërfaqes së përdoruesit, kuptimi i grafikëve, OCR (përfshirë shumëgjuhësinë), njohja e shkrimit me dorë dhe drejtimi i gishtërinjve. Imazhet mund të përpunohen në raporte aspektesh dhe rezolucione të ndryshueshme.
- Kuptimi i Videos – Analizon dhe përshkruan përmbajtjen e videos duke përpunuar sekuenca të kuadrove.
- Hyrje Multimodale e Ndërthurur – Përzieni imazhe, video dhe tekst brenda një mesazhi të vetëm për arsyetim të bazuar në kontekst.
- Thirrja e Funksioneve – Mbështetje vendase për përdorimin e strukturuar të mjeteve, duke mundësuar rrjedhat e punës agjentike.
- Kodim dhe Arsyetim – I aftë për gjenerim, përfundim kodi dhe arsyetim logjik hap pas hapi.
- Shumëgjuhësh – Mbështetje e gatshme për mbi 35 gjuhë, e trajnuar paraprakisht në mbi 140 gjuhë.
Praktikat më të Mira
Për performancën më të mirë, përdorni këto konfigurime dhe praktikat më të mira:
1. Cilësimet e marrjes së mostrave të difuzionit
Përdorni konfigurimin e mëposhtëm të standardizuar të marrjes së mostrave në të gjitha rastet e përdorimit:
- Metoda: Marrja e mostrave me difuzion me Zhurmë të Kufizuar nga Entropia dhe Ndalim Adaptiv.
- Konfigurimi i mostrës:
- Numri maksimal i hapave të heqjes së zhurmës = 48
- Grafiku i temperaturës (për formësimin logit): Zbërthim linear nga 0.8 → 0.4
- Përzgjedhja e Tokenit: Në çdo hap, kampioni zgjedh tokenët me entropinë më të ulët në mënyrë që kufiri i tyre i informacionit të ndërsjellë të mbetet nën kufirin e entropisë = 0.1.
- Rizhurmimi i Tokenave: Mostrat rizhurmojnë plotësisht tokenat e paselektuara
- Ndalesa Adaptive: Marrja e mostrave përfundon herët nëse dhe vetëm nëse plotësohen njëkohësisht të dy kushtet e mëposhtme:
- Parashikime të sigurta: Entropia mesatare e modelit mbi kanavacë është nën pragun e entropisë = 0.005
- Parashikime të qëndrueshme: Parashikimet e tokenëve me probabilitet më të lartë mbeten identike gjatë dy hapave të njëpasnjëshëm të heqjes së zhurmës.
2. Konfigurimi i Modalitetit të të Menduarit
Ngjashëm me modelet Gemma 4, ne përdorim role standarde system , assistant dhe user . Për të menaxhuar siç duhet procesin e të menduarit, përdorni tokenët e mëposhtëm të kontrollit:
- Aktivizimi i të menduarit: Të menduarit aktivizohet duke përfshirë tokenin
<|think|>në fillim të njoftimit të sistemit. Për të çaktivizuar të menduarit, hiqeni tokenin (vini re se një kanal i zbrazët i të menduarit mund të emetohet ende). - Gjenerimi Standard: Kur të menduarit është i aktivizuar, modeli do të nxjerrë arsyetimin e tij të brendshëm të ndjekur nga përgjigjja përfundimtare duke përdorur këtë strukturë:
<|channel>thought\n[Arsyetim i brendshëm]<channel|>. - Sjellje e të Menduarit me Çaktivizim: Nëse të menduarit është i çaktivizuar, modeli do të gjenerojë ende etiketat, por me një bllok mendimi bosh:
<|channel>thought\n<channel|>[Përgjigje përfundimtare] .
Vini re se shumë biblioteka si transformers trajtojnë kompleksitetet e shabllonit të bisedës për ju.
3. Biseda me shumë kthesa
- Pa Përmbajtje Mendimi në Histori: Në bisedat me shumë kthesa, rezultati i modelit historik duhet të përfshijë vetëm përgjigjen përfundimtare. Mendimet nga kthesat e mëparshme të modelit nuk duhet të shtohen para se të fillojë kthesa tjetër e përdoruesit.
4. Renditja e modalitetit
- Për performancë optimale me hyrjet multimodale, vendosni përmbajtjen e imazhit përpara tekstit në kërkesën tuaj.
5. Rezolucion i ndryshueshëm i imazhit
Përveç raporteve të ndryshueshme të aspektit, DiffusionGemma mbështet rezolucion të ndryshueshëm të imazhit përmes një buxheti të konfigurueshëm të tokenëve vizualë, i cili kontrollon se sa tokenë përdoren për të përfaqësuar një imazh. Një buxhet më i lartë i tokenëve ruan më shumë detaje vizuale me koston e llogaritjes shtesë, ndërsa një buxhet më i ulët mundëson nxjerrje më të shpejtë të përfundimeve për detyrat që nuk kërkojnë kuptim të hollësishëm.
- Buxhetet e mbështetura të tokenëve janë: 70 , 140 , 280 , 560 dhe 1120 .
- Përdorni buxhete më të ulëta për klasifikimin, titrat ose kuptimin e videos, ku nxjerrja dhe përpunimi më i shpejtë i shumë kuadrove i tejkalon detajet e imëta.
- Përdorni buxhete më të larta për detyra si OCR, analizimi i dokumenteve ose leximi i tekstit të vogël.
6. Gjatësia e videos
Të gjitha modelet mbështesin futjen e imazheve dhe mund të përpunojnë videot si korniza. Videoja mbështet një maksimum prej 60 sekondash duke supozuar që imazhet përpunohen me një kornizë për sekondë.
Të dhënat e modelit
Të dhënat e përdorura për trajnimin e modelit dhe mënyra se si u përpunuan të dhënat.
Seti i të dhënave të trajnimit
Seti ynë i të dhënave para-trajnimit është një koleksion i të dhënave në shkallë të gjerë dhe i larmishëm që përfshin një gamë të gjerë domenesh dhe modalitetesh, që përfshin dokumente në internet, kod, imazhe, audio, me një datë kufizimi janar 2025. Këtu janë komponentët kryesorë:
- Dokumentet e Uebit: Një koleksion i larmishëm tekstesh të uebit siguron që modeli të jetë i ekspozuar ndaj një game të gjerë stilesh gjuhësore, temash dhe fjalori. Seti i të dhënave të trajnimit përfshin përmbajtje në mbi 140 gjuhë.
- Kodi: Ekspozimi i modelit ndaj kodit e ndihmon atë të mësojë sintaksën dhe modelet e gjuhëve të programimit, gjë që përmirëson aftësinë e tij për të gjeneruar kod dhe për të kuptuar pyetjet që lidhen me kodin.
- Matematikë: Trajnimi mbi tekstin matematik e ndihmon modelin të mësojë arsyetimin logjik, përfaqësimin simbolik dhe t'u përgjigjet pyetjeve matematikore.
- Imazhe: Një gamë e gjerë imazhesh i mundëson modelit të kryejë analiza imazhesh dhe detyra të nxjerrjes së të dhënave vizuale.
Kombinimi i këtyre burimeve të ndryshme të të dhënave është thelbësor për trajnimin e një modeli të fuqishëm multimodal që mund të trajtojë një gamë të gjerë detyrash dhe formatesh të të dhënave të ndryshme.
Parapërpunimi i të dhënave
Këtu janë metodat kryesore të pastrimit dhe filtrimit të të dhënave të aplikuara në të dhënat e trajnimit:
- Filtrimi i CSAM: Filtrimi rigoroz i CSAM (Materialit të Abuzimit Seksual me Fëmijë) u aplikua në faza të shumëfishta në procesin e përgatitjes së të dhënave për të siguruar përjashtimin e përmbajtjes së dëmshme dhe të paligjshme.
- Filtrimi i të Dhënave të Ndjeshme: Si pjesë e bërjes së modeleve të para-trajnuara Gemma të sigurta dhe të besueshme, u përdorën teknika të automatizuara për të filtruar informacione të caktuara personale dhe të dhëna të tjera të ndjeshme nga grupet e trajnimit.
- Metoda shtesë: Filtrimi bazuar në cilësinë dhe sigurinë e përmbajtjes në përputhje me politikat tona .
Etika dhe Siguria
Ndërsa modelet e hapura bëhen qendrore për infrastrukturën e ndërmarrjeve, prejardhja dhe siguria janë parësore. I zhvilluar nga Google DeepMind, DiffusionGemma i nënshtrohet të njëjtave vlerësime rigoroze të sigurisë si modelet tona të patentuara Gemini.
Qasja e Vlerësimit
DiffusionGemma u zhvillua në partneritet me ekipet e sigurisë së brendshme dhe ato përgjegjëse të IA-së. Një gamë vlerësimesh të automatizuara, si dhe njerëzore, u kryen për të ndihmuar në përmirësimin e sigurisë së modelit. Këto vlerësime përputhen me parimet e IA-së të Google , si dhe me politikat e sigurisë, të cilat synojnë të parandalojnë që modelet tona gjeneruese të IA-së të gjenerojnë përmbajtje të dëmshme, duke përfshirë:
- Përmbajtje që lidhet me materiale abuzimi seksual me fëmijë dhe shfrytëzimi
- Përmbajtje e rrezikshme (p.sh., promovim i vetëvrasjes ose udhëzim për aktivitete që mund të shkaktojnë dëme në botën reale)
- Përmbajtje me përmbajtje seksuale eksplicite
- Gjuhë urrejtjeje (p.sh., çnjerëzim i anëtarëve të grupeve të mbrojtura)
- Ngacmimi (p.sh., inkurajimi i dhunës kundër njerëzve)
Rezultatet e Vlerësimit
Për të gjitha fushat e testimit të sigurisë, pamë përmirësime të mëdha në të gjitha kategoritë e sigurisë së përmbajtjes në krahasim me gjeneratat e mëparshme të modeleve Gemma. Në përgjithësi, DiffusionGemma, ashtu si modelet Gemma 4, i tejkalon ndjeshëm modelet Gemma 3 dhe 3n në përmirësimin e sigurisë, duke mbajtur të ulëta refuzimet e pajustifikuara. I gjithë testimi u krye qëllimisht pa filtra sigurie për të vlerësuar aftësitë bruto të modelit dhe sjelljet bazë. Si për tekstin në tekst ashtu edhe për imazhin në tekst, dhe në të gjitha madhësitë e modelit, modeli prodhoi shkelje minimale të politikave dhe tregoi përmirësime të konsiderueshme në krahasim me modelet e mëparshme Gemma.
Përdorimi dhe Kufizimet
Këto modele kanë disa kufizime për të cilat përdoruesit duhet të jenë të vetëdijshëm.
Përdorimi i synuar
Modelet multimodale (të afta për të përpunuar vizionin, gjuhën dhe/ose audion) kanë një gamë të gjerë aplikimesh në industri dhe fusha të ndryshme. Lista e mëposhtme e përdorimeve të mundshme nuk është gjithëpërfshirëse. Qëllimi i kësaj liste është të ofrojë informacion kontekstual rreth rasteve të mundshme të përdorimit që krijuesit e modeleve i kanë marrë në konsideratë si pjesë të trajnimit dhe zhvillimit të modelit.
- Krijimi i Përmbajtjes dhe Komunikimi
- Gjenerimi i Tekstit: Gjeneron formate krijuese teksti si poema, skenarë, kod, tekste marketingu dhe drafte email-esh.
- Chatbotët dhe IA Biseduese: Fuqizon ndërfaqet biseduese për shërbimin ndaj klientit, asistentët virtualë ose aplikacionet interaktive.
- Përmbledhja e Tekstit: Gjeneron përmbledhje koncize të një korpusi teksti, punimesh kërkimore ose raportesh.
- Nxjerrja e të Dhënave të Imazhit: Nxjerr, interpreton dhe përmbledh të dhënat vizuale për komunikimet me tekst.
- Kërkim dhe Edukim
- Përpunimi i Gjuhës Natyrore (NLP) dhe Hulumtimi VLM: Shërben si bazë për studiuesit për të eksperimentuar me teknikat VLM dhe NLP, për të zhvilluar algoritme dhe për të kontribuar në avancimin e fushës.
- Mjete për të mësuar gjuhë: Mbështet përvojat interaktive të të mësuarit të gjuhëve, duke ndihmuar në korrigjimin gramatikor ose duke ofruar praktikë në shkrim.
- Eksplorimi i Njohurive: Ndihmon studiuesit në eksplorimin e sasive të mëdha teksti duke gjeneruar përmbledhje ose duke iu përgjigjur pyetjeve rreth temave specifike.
Kufizime
- Të dhënat e trajnimit
- Cilësia dhe diversiteti i të dhënave të trajnimit ndikojnë ndjeshëm në aftësitë e modelit. Paragjykimet ose boshllëqet në të dhënat e trajnimit mund të çojnë në kufizime në përgjigjet e modelit.
- Shtrirja e të dhënave të trajnimit përcakton fushat lëndore që modeli mund të trajtojë në mënyrë efektive.
- Konteksti dhe Kompleksiteti i Detyrave
- Modeli funksionon mirë në detyrat që mund të formulohen me udhëzime dhe udhëzime të qarta. Detyrat me fund të hapur ose shumë komplekse mund të jenë sfiduese.
- Performanca e modelit mund të ndikohet nga sasia e kontekstit të ofruar (konteksti më i gjatë në përgjithësi çon në rezultate më të mira, deri në një pikë të caktuar).
- Dykuptimësia dhe Nuanca Gjuhësore
- Gjuha natyrore është në thelb komplekse. Modeli mund të ketë vështirësi në kapjen e nuancave delikate, sarkazmës ose gjuhës figurative.
- Saktësia faktike
- Modeli gjeneron përgjigje bazuar në informacionin që ka mësuar nga të dhënat e trajnimit të tyre, por ato nuk janë baza njohurish. Mund të gjenerojë deklarata faktike të pasakta ose të vjetruara.
- Logjikë e shëndoshë
- Modeli mbështetet në modele statistikore në gjuhë. Mund t’i mungojë aftësia për të zbatuar arsyetimin e bazuar në logjikën e shëndoshë në situata të caktuara.
Konsideratat dhe Rreziqet Etike
Gjatë krijimit të një modeli të hapur me gjuhë vizioni, ne kemi marrë në konsideratë me kujdes sa vijon:
- Paragjykim dhe Drejtësi
- VLM-të e trajnuara në të dhëna teksti dhe imazhi në shkallë të gjerë, të botës reale, mund të pasqyrojnë paragjykime socio-kulturore të ngulitura në materialin e trajnimit. DiffusionGemma iu nënshtrua një shqyrtimi të kujdesshëm, para-përpunimit të të dhënave hyrëse dhe vlerësimeve pas trajnimit, siç raportohet në këtë kartë, për të ndihmuar në zbutjen e rrezikut të këtyre paragjykimeve.
- Keqinformimi dhe Keqpërdorimi
- VLM-të mund të keqpërdoren për të gjeneruar tekst që është i rremë, mashtrues ose i dëmshëm.
- Janë dhënë udhëzime për përdorim të përgjegjshëm të modelit, shih Mjetin e IA-së Gjenerative të Përgjegjshme .
- Transparenca dhe Llogaridhënia
- Kjo kartë modeli përmbledh detaje mbi arkitekturën, aftësitë, kufizimet dhe proceset e vlerësimit të modelit.
- Një model i hapur i zhvilluar me përgjegjësi ofron mundësinë për të ndarë inovacionin duke e bërë teknologjinë VLM të arritshme për zhvilluesit dhe studiuesit në të gjithë ekosistemin e IA-së.
Rreziqet e identifikuara dhe zbutjet :
- Gjenerimi i përmbajtjes së dëmshme: Mekanizmat dhe udhëzimet për sigurinë e përmbajtjes janë thelbësore. Zhvilluesit inkurajohen të tregojnë kujdes dhe të zbatojnë masa mbrojtëse të përshtatshme për sigurinë e përmbajtjes bazuar në politikat e tyre specifike të produktit dhe rastet e përdorimit të aplikacionit.
- Keqpërdorimi për qëllime keqdashëse: Kufizimet teknike dhe edukimi i zhvilluesve dhe përdoruesve fundorë mund të ndihmojnë në zbutjen e aplikacioneve keqdashëse të VLM-ve. Ofrohen burime edukative dhe mekanizma raportimi për përdoruesit për të raportuar keqpërdorimin.
- Shkeljet e privatësisë: Modelet u trajnuan mbi të dhënat e filtruara për heqjen e informacioneve të caktuara personale dhe të dhënave të tjera të ndjeshme. Zhvilluesit inkurajohen t'i përmbahen rregulloreve të privatësisë me teknika që ruajnë privatësinë.
- Përjetësimi i paragjykimeve: Inkurajohet të kryhet monitorim i vazhdueshëm (duke përdorur metrika vlerësimi, rishikim njerëzor) dhe eksplorimi i teknikave të heqjes së paragjykimeve gjatë trajnimit të modelit, rregullimit të imët dhe rasteve të tjera të përdorimit.
Përfitimet
Në kohën e publikimit, ky është një model me gjuhë të hapur vizioni me latencë të ulët dhe performancë të lartë që ofron një mundësi bindëse për zhvilluesit dhe ata që janë të interesuar të hulumtojnë modelet e gjuhës së difuzionit. Modeli është projektuar nga themelet për zhvillim të përgjegjshëm të IA-së krahasuar me modelet me madhësi të ngjashme.