PaliGemma, PaliGemma
PaliGemma 2 dhe PaliGemma janë modele të lehta të gjuhës së vizionit të hapur (VLM) të frymëzuara nga PaLI-3 , dhe të bazuara në komponentë të hapur si modeli i vizionit SigLIP dhe modeli i gjuhës Gemma . PaliGemma merr imazhe dhe tekst si hyrje dhe mund t'u përgjigjet pyetjeve rreth imazheve me detaje dhe kontekst, që do të thotë se PaliGemma mund të kryejë analiza më të thella të imazheve dhe të ofrojë njohuri të dobishme, të tilla si titrat për imazhet dhe videot e shkurtra, zbulimin e objekteve dhe leximin e tekstit të ngulitur brenda imazheve.
PaliGemma 2 është i disponueshëm në madhësi parametrash 3B, 10B dhe 28B, të cilat bazohen respektivisht në modelet Gemma 2 2B, 9B dhe 27B. Modelet origjinale PaliGemma janë në dispozicion në madhësinë 3B. Për më shumë informacion mbi variantet e modelit Gemma, shihni listën e modeleve Gemma . Variantet e modelit PaliGemma mbështesin rezolucione të ndryshme pikselësh për hyrjet e imazhit, duke përfshirë 224 x 224, 448 x 448 dhe 896 x 896 piksele.
Ju mund të shikoni dhe shkarkoni modelet PaliGemma nga faqet e mëposhtme:
- Shkarkoni nga Kaggle .
- Shkarkoni nga Hugging Face .
Ekzistojnë tre kategori të modeleve PaliGemma:
- PaliGemma PT - Modele të para-trajnuara për qëllime të përgjithshme që mund të rregullohen mirë për një sërë detyrash.
- PaliGemma FT - Modele të orientuara nga kërkimi që janë të rregulluara mirë në grupe të dhënash kërkimore specifike.
- PaliGemma mix - Modele të akorduara për një përzierje detyrash që mund të përdoren jashtë kutisë për raste të përdorimit të zakonshëm.
Përfitimet kryesore përfshijnë:
-
Aftësia multimodale
Njëkohësisht trajton të dyja imazhet dhe futjen e tekstit. -
Model bazë i gjithanshëm
Mund të akordohet mirë në një gamë të gjerë detyrash në gjuhën e vizionit. -
Eksplorimi jashtë raftit
Vjen me një pikë kontrolli të rregulluar mirë në një përzierje detyrash për përdorim të menjëhershëm kërkimor.