Gemma është një familje modelesh të inteligjencës artificiale gjeneruese dhe ju mund t'i përdorni ato në një gamë të gjerë detyrash gjenerimi, duke përfshirë përgjigjen e pyetjeve, përmbledhjen dhe arsyetimin. Modelet Gemma ofrohen me pesha të hapura dhe lejojnë përdorim komercial të përgjegjshëm, duke ju lejuar t'i akordoni dhe t'i vendosni ato në projektet dhe aplikacionet tuaja.
Familja e modeleve Gemma 4 përfshin tre arkitektura të dallueshme të përshtatura për kërkesa specifike të harduerit:
- Madhësi të Vogla: Modele me parametra efektivë 2B dhe 4B të ndërtuara për vendosje ultra-mobile, në skaje dhe në shfletues (p.sh., Pixel, Chrome).
- Dense: Një model i fuqishëm me dendësi të lartë me parametra 31B që mbush hendekun midis performancës së nivelit të serverit dhe ekzekutimit lokal.
- Përzierje Ekspertësh: Një model MoE 26B shumë efikas i projektuar për arsyetim të avancuar dhe me rendiment të lartë.
Mund të shkarkoni modelet Gemma 4 nga Kaggle dhe Hugging Face . Për më shumë detaje teknike mbi Gemma 4, shihni Kartën e Modelit . Versionet e mëparshme të modeleve kryesore të Gemma janë gjithashtu të disponueshme për shkarkim. Për më shumë informacion, shihni Modelet e mëparshme të Gemma .
Merrni atë në Kaggle Merrni atë në Hugging Face
Aftësitë
- Arsyetimi: Të gjitha modelet në familje janë projektuar si arsyetues shumë të aftë, me mënyra të të menduarit të konfigurueshme.
- Multimodalitete të Zgjeruara: Përpunon Tekstin, Imazhin me raport të ndryshueshëm të aspektit dhe mbështetje për rezolucion (të gjitha modelet), Videon dhe Audion (të paraqitura në mënyrë native në modelet E2B dhe E4B).
- Dritare konteksti e zgjeruar: Modelet e vogla kanë një dritare konteksti prej 128K, ndërsa modelet e mesme mbështesin 256K.
- Aftësi të Përmirësuara të Kodimit dhe Agjensisë: Arrin përmirësime të dukshme në standardet e kodimit së bashku me mbështetjen e integruar për thirrjen e funksioneve , duke fuqizuar agjentë autonomë shumë të aftë.
- Mbështetje për Kërkesat e Sistemit Native: Gemma 4 prezanton mbështetje të integruar për rolin e sistemit, duke mundësuar biseda më të strukturuara dhe të kontrollueshme.
Madhësitë e parametrave dhe kuantizimi
Modelet Gemma 4 janë të disponueshme në 4 madhësi parametrash: E2B, E4B, 31B dhe 26B A4B. Modelet mund të përdoren me saktësinë e tyre të paracaktuar (16-bit) ose me një saktësi më të ulët duke përdorur kuantizimin. Madhësitë dhe saktësitë e ndryshme përfaqësojnë një sërë kompromisesh për aplikacionin tuaj të IA-së. Modelet me parametra dhe numërim bitësh më të lartë (saktësi më e lartë) janë përgjithësisht më të aftë, por janë më të shtrenjtë për t'u ekzekutuar në aspektin e cikleve të përpunimit, kostos së memories dhe konsumit të energjisë. Modelet me parametra dhe numërim bitësh më të ulët (saktësi më e ulët) kanë më pak aftësi, por mund të jenë të mjaftueshme për detyrën tuaj të IA-së.
Kërkesat e Memories së Inferencës Gemma 4
Tabela e mëposhtme detajon kërkesat e përafërta të memories GPU ose TPU për ekzekutimin e inference me secilën madhësi të versioneve të modelit Gemma 4.
| Parametrat | BF16 (16-bit) | SFP8 (8-bit) | Q4_0 (4-bit) |
|---|---|---|---|
| Gemma 4 E2B | 9.6 GB | 4.6 GB | 3.2 GB |
| Gemma 4 E4B | 15 GB | 7.5 GB | 5 GB |
| Gemma 4 31B | 58.3 GB | 30.4 GB | 17.4 GB |
| Gemma 4 26B A4B | 48 GB | 25 GB | 15.6 GB |
Tabela 1. Memoria e përafërt GPU ose TPU e nevojshme për të ngarkuar modelet Gemma 4 bazuar në numrin e parametrave dhe nivelin e kuantizimit.
Konsideratat kryesore për planifikimin e kujtesës
- Arkitektura Efikase (E2B dhe E4B): "E" qëndron për parametrat "efektivë". Modelet më të vogla përfshijnë Vendosje Për-Shtresë (PLE) për të maksimizuar efikasitetin e parametrave në vendosjet në pajisje. Në vend që të shtojë më shumë shtresa në model, PLE i jep secilës shtresë dekoderi vendosjen e vet të vogël për çdo shenjë. Këto tabela vendosjeje janë të mëdha, por përdoren vetëm për kërkime të shpejta, prandaj memoria totale e nevojshme për të ngarkuar peshat statike është më e lartë se sa sugjeron numërimi efektiv i parametrave.
- Arkitektura e MoE (26B A4B): Modeli 26B është një model i Përzierjes së Ekspertëve. Ndërsa aktivizon vetëm 4 miliardë parametra për token gjatë gjenerimit, të gjithë 26 miliardë parametrat duhet të ngarkohen në memorie për të ruajtur shpejtësi të larta rrugëzimi dhe nxjerrjeje përfundimesh. Kjo është arsyeja pse kërkesa e tij bazë për memorie është shumë më afër një modeli të dendur 26B sesa një modeli 4B.
- Vetëm Peshat Bazë: Vlerësimet në tabelën e mëparshme marrin parasysh vetëm memorien e nevojshme për të ngarkuar peshat statike të modelit. Ato nuk përfshijnë VRAM-in shtesë të nevojshëm për mbështetjen e softuerit ose dritaren e kontekstit.
- Dritarja e Kontekstit (KV Cache): Konsumi i memories do të rritet dinamikisht bazuar në numrin total të tokenëve në kërkesën tuaj dhe përgjigjen e gjeneruar. Dritaret më të mëdha të kontekstit kërkojnë dukshëm më shumë VRAM përveç peshave të modelit bazë.
- Shpenzime të Përgjithshme për Rregullimin e Përsosur: Kërkesat e memories për rregullimin e përsosur të modeleve Gemma janë shumë më të larta sesa për përfundimin standard. Gjurmët tuaja të sakta do të varen shumë nga kuadri i zhvillimit, madhësia e grupit dhe nëse po përdorni rregullim me precizion të plotë kundrejt një metode të Rregullimit të Përsosur me Efikasitet të Parametrave (PEFT) si Përshtatja me Rang të Ulët (LoRA).
Modelet e mëparshme të Gemma-s
Mund të punoni me gjeneratat e mëparshme të modeleve Gemma, të cilat janë gjithashtu të disponueshme nga Kaggle dhe Hugging Face . Për më shumë detaje teknike rreth modeleve të mëparshme Gemma, shihni faqet e mëposhtme të kartave të modelit:
- Karta e Modelit Gemma 3
- Karta e Modelit Gemma 2
- Karta Modeli Gemma 1
Gati për të filluar ndërtimin? Filloni me modelet Gemma!