Në Gemma 4, Parashikimi me Shumë Shenja (MTP) është arkitektura specifike e përdorur për të mundësuar Dekodimin Spekulativ me efikasitet të lartë. Dekodimi spekulativ është një teknikë për të përshpejtuar nxjerrjen e përfundimeve në modele të mëdha gjuhësore. Në vend që të mbështetemi vetëm në modelin e madh të synuar për të gjeneruar shenja në mënyrë autoregresive (gjenerimi i një shenje në të njëjtën kohë, ku çdo shenjë e re varet nga ato të mëparshmet), një 'model draft' më i vogël dhe më i shpejtë parashikon disa shenja përpara. Modeli i synuar më pas i verifikon këto shenja të hartuara paralelisht. Nëse modeli i synuar refuzon një shenjë të hartuar, ai prapë prodhon shenjën e saktë për atë pozicion (duke siguruar që ky hap të mos shkojë dëm) dhe modeli i draftit rifillon parashikimin nga ai shenjë e re e saktë.
Gemma 4 zbaton MTP duke zgjeruar modelin bazë me këtë model drafti më të vogël dhe më të shpejtë. Ky model drafti nuk është i pavarur pasi ndan tabelën e ngulitur të të dhënave hyrëse me modelin e synuar dhe ndërton drejtpërdrejt mbi aktivizimet e tij të shtresës së fundit. Kjo rezulton në përshpejtime të konsiderueshme të dekodimit, duke garantuar të njëjtën cilësi si gjenerimi standard autoregresiv, duke i bërë këto pika kontrolli perfekte për aplikacione me vonesë të ulët dhe në pajisje.
Dekodimi spekulativ funksionon duke hartuar disa tokena dhe duke i verifikuar ato në një kalim të vetëm përpara. Për modelet e dendura, përdoren të njëjtat pesha për çdo token, kështu që verifikimi i shumë tokenave të hartuar shton kosto minimale. Modelet e Përzierjes së Ekspertëve (MoE) si Gemma 4 26B A4B funksionojnë ndryshe. Çdo token mund të aktivizojë ekspertë të ndryshëm, kështu që verifikimi i tokenave të hartuar mund të kërkojë ngarkimin e peshave shtesë të ekspertëve nga memoria, duke kompensuar fitimet nga hartimi. Në madhësi më të larta të grupeve, zakonisht ka më shumë mbivendosje në ekspertët e aktivizuar nëpër sekuenca, duke përmirësuar ripërdorimin e peshave të ngarkuara. Në madhësinë e grupit 1 kjo mbivendosje është e kufizuar, prandaj hartuesi 26B A4B mund të mos japë shpejtësi në platformat harduerike pa paralelizëm të mirë.
Përmirësime të MTP-së
Gemma 4 prezanton disa përmirësime në tubacionin standard të dekodimit spekulativ për të përmirësuar cilësinë e tokenëve të hartuar dhe efikasitetin:
- Integrime të përbashkëta të të dhënave hyrëse : Modeli draft ndan tabelën e integrimit të të dhënave hyrëse me modelin e synuar.
- Aktivizimet e Synimit : Modeli draft përdor aktivizimet nga shtresa e fundit e modelit të synuar, i bashkon ato me ngulitjet e tokenëve dhe i projekton ato poshtë në dimensionin e modelit të hartuesit.
- Embedder Eficient : Për të shmangur operacionin e kushtueshëm të parashikimit në të gjithë fjalorin, modeli grupon tokena të ngjashëm në grupe. Së pari identifikon grupet më të mundshme dhe më pas i kufizon llogaritjet e tij përfundimtare vetëm në tokena brenda atyre grupeve të zgjedhura (vetëm E2B dhe E4B).