PaliGemma udhëzimet e menjëhershme dhe të sistemit

Kjo faqe përshkruan formatimin e shpejtë dhe udhëzimet e sistemit për modelet PaliGemma. Këto variante të modelit Gemma përdorin të njëjtin formatim të përgjithshëm si modelet e themelit Gemma dhe mbështesin një sintaksë të veçantë për detyra specifike të lidhura me imazhin.

Formati i shpejtë

Modelet PaliGemma përdorin të njëjtin formatim të shpejtë si modelet e themelit Gemma ku bazohen. Megjithatë, modelet PaliGemma mbështesin gjithashtu një sintaksë të detyrës speciale, e cila përshkruhet në seksionin vijues. Për më shumë informacion mbi formatimin e kërkesës së Gemma, shihni udhëzimet e kërkesës dhe sistemit Gemma .

Renditja e të dhënave të imazhit dhe tekstit

Kur kërkohen modele PaliGemma me të dhëna teksti dhe imazhi, të dhënat e imazhit duhet të sigurohen gjithmonë së pari dhe më pas të dhënat e nxitjes së tekstit pas tyre. Kthimi i renditjes së të dhënave të shpejtë të imazhit dhe tekstit, ose përzierja e të dhënave të imazhit dhe tekstit zakonisht do të gjenerojë përgjigje të papërdorshme.

Sintaksa e detyrës së shpejtë

Modelet PaliGemma janë trajnuar me modele specifike të shpejta dhe sintaksë për detyra të tilla si identifikimi i objekteve dhe nënshkrimi i imazhit. Ju mund ta përdorni këtë sintaksë të detyrës së shpejtë për të kërkuar sjellje specifike nga modelet PaliGemma si më poshtë:

  • "cap {lang}\n" : Titra e shkurtër shumë e papërpunuar (mbështetur vetëm nga PT)
  • "caption {lang}\n" : Titrat e shkurtra
  • "describe {lang}\n" : Titrat pak më të gjatë, më përshkrues (mbështetur vetëm nga PT)
  • "ocr" : Njohja optike e karaktereve (mbështetur vetëm nga PT)
  • "answer {lang} {question}\n" : Pyetje që përgjigjet në lidhje me përmbajtjen e imazhit
  • "question {lang} {answer}\n" : Gjenerimi i pyetjeve për një përgjigje të dhënë (mbështetur vetëm nga PT)
  • "detect {object} ; {object}\n" : Gjeni objektet e listuara në një imazh dhe ktheni kutitë kufizuese për ato objekte
  • "segment {object} ; {object}\n" : Gjeni zonën e zënë nga objektet e listuara në një imazh për të krijuar një segmentim imazhi për atë objekt

Opsionet {lang} janë për kodet e gjuhëve. PaliGemma mbështet njohjen e gjuhës për 34 gjuhë të ndryshme për kërkesat e detyrave me këtë opsion. Mund të gjeni listën e gjuhëve të mbështetura në GitHub .

Për shembuj të detajuar të kodit që tregojnë se si të përdoret kjo sintaksë, shihni tutorialin Generate PaliGemma output with Keras .

Nxitja me gjuhën natyrore

Megjithëse rekomandohet sintaksa në seksionin e mëparshëm, modelet mikse mbështesin gjithashtu gjuhën natyrale për shumë nga detyrat. Për shembull, "përshkruani shkurtimisht këtë imazh" ose "çfarë është ky tekst" do të vazhdojë të funksionojë edhe nëse nuk kërkohet me sintaksën e saktë.

Komandat e shpejta të grumbulluara

Ju mund të jepni më shumë se një komandë prompt brenda një prompt të vetëm si një grup udhëzimesh. Çdo komandë e shpejtë duhet të përfundojë me një karakter \n . Shembulli i mëposhtëm tregon se si të strukturoni tekstin tuaj të shpejtë për të dhënë udhëzime të shumta.

prompts = [
    'answer en where is the cow standing?\n',
    'answer en what color is the cow?\n',
    'describe en\n',
    'detect cow\n',
    'segment cow\n',
]
images = [cow_image, cow_image, cow_image, cow_image, cow_image]
outputs = paligemma.generate(
    inputs={
        "images": images,
        "prompts": prompts,
    }
)
for output in outputs:
    print(output)

Udhëzimet e sistemit

Modelet PaliGemma nuk mbështesin asnjë udhëzim shtesë të sistemit përtej udhëzimeve të sistemit Gemma nga modelet e themelit ku bazohen.