Gemma 4 u lançua me hyrje teksti, audio dhe imazhi dhe dritare konteksti deri në 256K! Mësoni më shumë

Kjo faqe është përkthyer nga Cloud Translation API.

Kuptimi i vizionit

Gemma 4, modeli më i fundit nga familja Gemma, mund të kryejë një gamë të gjerë detyrash të gjuhës vizuale, të tilla si zbulimi i objekteve, Njohja Optike e Karaktereve (OCR), përgjigjja e pyetjeve vizuale, mbishkrimi i imazheve dhe arsyetimi në imazhe të shumta. Ai gjithashtu mbështet përpunimin me rezolucion të ndryshueshëm, duke ju lejuar të balanconi shpejtësinë e nxjerrjes së përfundimeve dhe saktësinë e rezultatit.

Ky seksion shqyrton se si të përgatitni dhe përdorni në mënyrë efektive të dhënat vizuale në kërkesat tuaja.

Të dhëna vizuale

Të dhënat vizuale mund të vijnë në shumë formate dhe rezolucione. Formatet specifike të skedarëve të mbështetura (si JPEG dhe PNG) varen nga framework-u që zgjidhni për të kthyer të dhënat tuaja vizuale në tenzorë.

Ja cilat janë konsideratat kryesore që duhen marrë në konsideratë gjatë përgatitjes së të dhënave vizuale për Gemma-n:

Kostoja e tokenit: Çdo imazh zakonisht përdor 256 tokena, megjithëse kostot e tokenëve të imazhit PaliGemma ndryshojnë në varësi të modelit specifik të zgjedhur.
Rezolucioni: Rezolucioni i interpretuar - që do të thotë numri i pikselëve të koduar në tokena dhe të përpunuar nga modeli - varet nga versioni i Gemma që po përdorni:
- Gemma 4: Rezolucion i ndryshueshëm bazuar në buxhetin e tokenëve. Mund të zgjidhni midis madhësive të buxhetit prej 70, 140, 280, 560 ose 1120 tokenësh, të cilat përcaktojnë se sa i rimadhësohet dhe përpunohet imazhit hyrës.
- Gemma 3: (4B dhe më i lartë) rezolucion 896x896, me opsione panoramike dhe skanimi për imazhe më të mëdha.
- Gemma 3n: rezolucion 256x256, 512x512 ose 768x768
- PaliGemma 2: rezolucion 224x224, 448x448 ose 896x896

Imazhet me rezolucion më të ulët përpunohen më shpejt, por kapin më pak detaje vizuale. Për të optimizuar shpejtësinë e nxjerrjes së përfundimeve, duhet të synoni të ofroni të dhëna vizuale që përputhen me një nga rezolucionet e integruara të interpretuara të modelit Gemma që keni zgjedhur.

Rezolucion i ndryshueshëm dhe buxhete të tokenëve

Modelet Gemma 4 prezantojnë mundësinë për të përpunuar imazhe me rezolucione të ndryshme, duke ju lejuar të përshtatni të dhënat vizuale sipas detyrës suaj specifike. Për shembull, mund të zgjidhni një rezolucion të lartë për të identifikuar detaje të vogla në zbulimin e objekteve, ndërsa një rezolucion më i ulët mund të jetë i preferueshëm për analizimin e kuadrove individuale të videos për të përshpejtuar përpunimin. Në fund të fundit, kjo veçori ju lejon të balanconi shpejtësinë e nxjerrjes së përfundimeve me saktësinë e përfaqësimit vizual.

Ju e menaxhoni këtë kompromis duke përdorur një buxhet token-esh . Ky buxhet vendos një kufi të prerë në numrin e token-eve vizuale (të njohura edhe si ngulitje token-esh vizuale) që modeli mund të gjenerojë për një imazh të vetëm.

Mund të zgjidhni një buxhet prej 70, 140, 280, 560 ose 1120 tokenësh:

Buxhete të larta (p.sh., 1120 tokena): Ruani një rezolucion më të lartë të imazhit. Kjo gjeneron më shumë pjesë që modeli të përpunojë, duke e bërë atë ideal për kapjen e detajeve të imëta dhe të ndërlikuara.
Buxhete të ulëta (p.sh., 70 tokena): Zvogëloni imazhin, duke rezultuar në më pak patch-e. Kjo përshpejton ndjeshëm kohën e nxjerrjes së përfundimeve.

Si funksionon buxheti Buxheti i tokenëve kontrollon drejtpërdrejt se sa i ridimensionohet një imazhi duke diktuar numrin maksimal të patch-eve fillestare të imazhit. Sistemi gjeneron nëntë herë më shumë patch-e sesa buxheti juaj i zgjedhur. Për shembull, një buxhet prej 280 tokenësh jep deri në 2,520 patch-e (280 × 9).

Shumëzuesi 9 ekziston për shkak të mënyrës se si kompresohen pjesët: gjatë përpunimit, modeli merr çdo rrjetë 3x3 të pjesëve ngjitur dhe i mesatarizon ato së bashku për të krijuar një ngulitje të vetme. Këto ngulitje të konsoliduara bëhen tokenët tuaj përfundimtarë vizualë. Si pasojë, një buxhet më i lartë tokenësh jep më shumë ngulitje përfundimtare, duke i lejuar modelit të nxjerrë informacion më të pasur dhe më të detajuar nga të dhënat tuaja vizuale.

Çfarë duhet të bëni

Ja disa praktika më të mira që duhen ndjekur kur i jepni Gemmës të dhëna vizuale.

Ji specifik : Nëse ke ndonjë detyrë specifike, jep kontekst dhe udhëzime të mjaftueshme. Në vend të "përshkruaj këtë imazh", provo "përshkruaj skenën në këtë imazh, duke u përqendruar në marrëdhënien midis njerëzve dhe objekteve".
Jepni kufizime : Për të arritur një stil ose ton të caktuar, sigurohuni që ta specifikoni atë në kërkesën tuaj. Për shembull, në vend të një kërkese të përgjithshme për histori, kërkojini Gemmës të "Shkruaj një histori të shkurtër rreth këtij imazhi në stilin e një filmi noir".
Përmirësim Përsëritës : Marrja e rezultatit të synuar shpesh kërkon eksperimentim dhe përsosje të kërkesave. Filloni me një kërkesë bazë dhe shtoni gradualisht kompleksitetin.

Gjërat që nuk duhen bërë

Ja disa gjëra që duhen shmangur kur i kërkoni Gemmës të dhëna vizuale.

Prisni Numërime të Sakta për Objekte Jashtëzakonisht të Dendura : Ndërsa Gemma 4 shkëlqen në zbulimin e objekteve dhe OCR-në, ai prapëseprapë mund të ofrojë përafrime në vend të numërimeve të sakta për objekte jashtëzakonisht të dendura ose të vogla (siç është numërimi i fijeve individuale të barit). Për të arritur saktësinë më të mirë për detyrat vizuale, përdorni një buxhet më të lartë të tokenëve.
Nxitje të paqarta ose të paqarta : Në vend të nxitjeve të përgjithshme si "Gjenero diçka bazuar në këtë imazh", jep udhëzime specifike për të arritur rezultatet e synuara. Përcakto qartë se çfarë është "diçka". Për shembull, një poezi, recetë ose fragment kodi.