Udhëzues për gjenerimin e imazheve

Detyra e gjeneratorit të imazhit

Detyra MediaPipe Image Generator ju lejon të gjeneroni imazhe bazuar në një kërkesë teksti. Kjo detyrë përdor një model tekst-në-imazh për të gjeneruar imazhe duke përdorur teknikat e difuzionit.

Detyra pranon një kërkesë teksti si hyrje, së bashku me një imazh të gjendjes opsionale që modeli mund ta shtojë dhe ta përdorë si referencë për gjenerim. Për më shumë mbi gjenerimin e kushtëzuar tekst-në-imazh, shihni shtojcat e difuzionit në pajisje për gjenerimin e kushtëzuar tekst-në-imazh .

Gjeneruesi i imazheve mund të gjenerojë gjithashtu imazhe bazuar në koncepte specifike që i janë dhënë modelit gjatë trajnimit ose rikualifikimit. Për më shumë informacion, shihni personalizo me LoRA .

Filloni

Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë për platformën ju udhëzojnë përmes një zbatimi bazë të kësaj detyre, me shembuj kodesh që përdorin një model të paracaktuar dhe opsionet e rekomanduara të konfigurimit:

Detajet e detyrës

Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.

Veçoritë

Ju mund të përdorni Gjeneratorin e Imazheve për të zbatuar sa vijon:

  1. Gjenerimi i tekstit në imazh - Gjeneroni imazhe me një kërkesë teksti.
  2. Gjenerimi i imazheve me imazhe të kushteve - Gjeneroni imazhe me një mesazh teksti dhe një imazh referencë. Gjeneruesi i imazheve përdor imazhet e gjendjes në mënyra të ngjashme me ControlNet .
  3. Gjenerimi i imazheve me peshat LoRA - Gjeneroni imazhe të njerëzve, objekteve dhe stileve të veçanta me një mesazh teksti duke përdorur pesha të personalizuara të modelit.
Hyrjet e detyrave Rezultatet e detyrave
Gjeneratori i imazhit pranon hyrjet e mëposhtme:
  • Tekst i shpejtë
  • Farë
  • Numri i përsëritjeve gjeneruese
  • Opsionale: imazhi i gjendjes
Gjeneruesi i imazhit nxjerr rezultatet e mëposhtme:
  • Imazhi i krijuar bazuar në hyrjet.
  • Opsionale: Pamje përsëritëse të imazhit të krijuar.

Opsionet e konfigurimeve

Kjo detyrë ka opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave
imageGeneratorModelDirectory Drejtoria e modelit të gjeneratorit të imazhit që ruan peshat e modelit. PATH
loraWeightsFilePath Përcakton shtegun për skedarin e peshave LoRA. Opsionale dhe e zbatueshme vetëm nëse modeli është personalizuar me LoRA. PATH
errorListener Vendos një dëgjues opsional gabimi. N/A

Detyra gjithashtu mbështet modelet e shtojcave, të cilat i lejojnë përdoruesit të përfshijnë imazhe të kushteve në hyrjen e detyrës, të cilat modeli i themelit mund t'i shtojë dhe t'i përdorë si referencë për gjenerim. Këto imazhe të gjendjes mund të jenë pika referimi të fytyrës, skica të skajeve dhe vlerësime të thellësisë, të cilat modeli i përdor si kontekst dhe informacion shtesë për të gjeneruar imazhe.

Kur shtoni një model shtesë në modelin e themelimit, konfiguroni gjithashtu opsionet e shtojcave. Shtojca shtesë Face pikë referimi përdor faceConditionOptions , plugin Canny edge përdor edgeConditionOptions dhe plugin Depth përdor depthConditionOptions .

Opsione të këndshme të skajeve

Konfiguro opsionet e mëposhtme në edgeConditionOptions .

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
threshold1 Pragu i parë për procedurën e histerezës. Float 100
threshold2 Pragu i dytë për procedurën e histerezës. Float 200
apertureSize Madhësia e hapjes për operatorin Sobel. Gama tipike është midis 3-7. Integer 3
l2Gradient Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së paracaktuar L1. BOOLEAN False
EdgePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detektorin e skajeve Canny .

Opsionet e pikë referimi të fytyrës

Konfiguro opsionet e mëposhtme në faceConditionOptions .

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
minFaceDetectionConfidence Rezultati minimal i besimit për zbulimin e fytyrës për t'u konsideruar i suksesshëm. Float [0.0,1.0] 0.5
minFacePresenceConfidence Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikës referimi të fytyrës. Float [0.0,1.0] 0.5
faceModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. Objekti i BaseOptions N/A
FacePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .

Opsionet e thellësisë

Konfiguro opsionet e mëposhtme në depthConditionOptions .

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
depthModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. Objekti i BaseOptions N/A
depthPluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Modelet

Gjeneruesi i imazhit kërkon një model themeli, i cili është një model i AI-t tekst-për-imazh që përdor teknikat e difuzionit për të gjeneruar imazhe të reja. Modelet e bazamentit të listuara në këtë seksion janë modele të lehta të optimizuara për t'u përdorur në telefonat inteligjentë të nivelit të lartë.

Modelet e shtojcave janë opsionale dhe plotësojnë modelet themelore, duke u mundësuar përdoruesve të ofrojnë një imazh shtesë të gjendjes së bashku me një mesazh teksti, për gjenerimin e imazheve më specifike. Përshtatja e modeleve të themelit duke përdorur peshat LoRA është një opsion që i mëson modelit të themelit për një koncept specifik, si një objekt, person ose stil, dhe i injekton ato në imazhet e krijuara.

Modelet e fondacionit

Modelet e themelit janë modele latente të difuzionit tekst-në-imazh që gjenerojnë imazhe nga një mesazh teksti. Gjeneruesi i imazhit kërkon që modeli i themelit të përputhet me formatin e modelit runwayml/stable-diffusion-v1-5 EMA-only , bazuar në modelin e mëposhtëm:

Modelet e mëposhtme të themelit janë gjithashtu të pajtueshme me Gjeneratorin e Imazhit:

Pasi të keni shkarkuar një model themeli, përdorni imazhin_generator_converter për ta kthyer modelin në formatin e duhur në pajisje për Gjeneratorin e Imazhit.

Instaloni varësitë e nevojshme:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

Ekzekutoni skriptin convert.py :

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

Modelet e shtojcave

Modelet e shtojcave në këtë seksion janë zhvilluar nga Google dhe duhet të përdoren në kombinim me një model themeli. Modelet e shtojcave mundësojnë që Gjeneratori i Imazhit të pranojë një imazh kushti së bashku me një kërkesë teksti si hyrje, e cila ju lejon të kontrolloni strukturën e imazheve të krijuara. Modelet e shtojcave ofrojnë aftësi të ngjashme me ControlNet , me një arkitekturë të re posaçërisht për përhapjen në pajisje .

Modelet e shtojcave duhet të specifikohen në opsionet bazë dhe mund t'ju kërkojnë të shkarkoni skedarë modelesh shtesë. Çdo shtojcë ka kërkesa unike për imazhin e gjendjes, e cila mund të gjenerohet nga Gjeneruesi i Imazheve.

Shtojca Canny Edge

Shembull i daljes së dy imazheve të krijuara që përdorin një imazh të gjendjes së dhënë me një skicë të fortë të tullave dhe kërkesën

Shtojca Canny Edge pranon një imazh kushti që përshkruan skajet e synuara të imazhit të krijuar. Modeli i themelit përdor skajet e nënkuptuara nga imazhi i gjendjes dhe gjeneron një imazh të ri bazuar në kërkesën e tekstit. Gjeneruesi i imazheve përmban aftësi të integruara për të krijuar imazhe të kushteve dhe kërkon vetëm shkarkimin e modelit të shtojcës.

Shkarkoni shtojcën Canny Edge

Shtojca Canny Edge përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
threshold1 Pragu i parë për procedurën e histerezës. Float 100
threshold2 Pragu i dytë për procedurën e histerezës. Float 200
apertureSize Madhësia e hapjes për operatorin Sobel. Gama tipike është midis 3-7. Integer 3
l2Gradient Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së paracaktuar L1. BOOLEAN False
EdgePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detektorin e skajeve Canny .

Shtojca Face Landmark

Një shembull i daljes së dy imazheve të krijuara që përdorin një imazh të gjendjes së dhënë të një fytyre të skicuar dhe dy kërkesave të ndryshme për të treguar se i njëjti imazh i gjendjes mund të përdoret për të gjeneruar imazhe me pamje shumë të ndryshme

Shtojca Face Landmark pranon daljen nga MediaPipe Face Landmarker si imazhin e gjendjes. Face Landmarker ofron një rrjetë të detajuar të fytyrës së një fytyre të vetme, e cila harton praninë dhe vendndodhjen e tipareve të fytyrës. Modeli i themelit përdor hartën e fytyrës të nënkuptuar nga imazhi i gjendjes dhe gjeneron një fytyrë të re mbi rrjetë.

Shkarkoni shtesën "Face pikë referimi".

Shtojca e pikë referimi Face kërkon gjithashtu paketën e modelit Face Landmarker për të krijuar imazhin e gjendjes. Kjo paketë modeli është e njëjta paketë e përdorur nga detyra Face Landmarker .

Shkarkoni paketën e modelit të Face pikë referimi

Shtojca Face Landmark përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
minFaceDetectionConfidence Rezultati minimal i besimit për zbulimin e fytyrës për t'u konsideruar i suksesshëm. Float [0.0,1.0] 0.5
minFacePresenceConfidence Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikës referimi të fytyrës. Float [0.0,1.0] 0.5
faceModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. Objekti i BaseOptions N/A
FacePluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .

Shtojca e thellësisë

Shembull i prodhimit të dy imazheve të krijuara që përdorin një imazh të kushtit të dhënë që tregon një formë të përgjithshme të një makine për të treguar se shtojca Depth mund të krijojë imazhe që shtojnë thellësi në një imazh të sheshtë

Shtojca Depth pranon një imazh kushti që specifikon thellësinë monokulare të një objekti. Modeli i themelit përdor imazhin e gjendjes për të konstatuar madhësinë dhe thellësinë e objektit që do të gjenerohet dhe gjeneron një imazh të ri bazuar në kërkesën e tekstit.

Shkarkoni shtojcën Depth

Shtojca Depth kërkon gjithashtu një model të vlerësimit të thellësisë për të krijuar imazhin e gjendjes.

Shkarkoni modelin e vlerësimit të thellësisë

Shtojca Depth përmban opsionet e mëposhtme të konfigurimit:

Emri i opsionit Përshkrimi Gama e vlerave Vlera e paracaktuar
depthModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. Objekti i BaseOptions N/A
depthPluginModelBaseOptions Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. Objekti i BaseOptions N/A

Përshtatje me LoRA

Përshtatja e një modeli me LoRA mund t'i mundësojë Gjeneratorit të Imazheve të gjenerojë imazhe bazuar në koncepte specifike, të cilat identifikohen nga shenja unike gjatë trajnimit. Me peshat e reja LoRA pas stërvitjes, modeli është në gjendje të gjenerojë imazhe të konceptit të ri kur token specifikohet në kërkesën e tekstit.

Krijimi i peshave LoRA kërkon trajnimin e një modeli themeli mbi imazhet e një objekti, personi ose stili specifik, i cili i mundëson modelit të njohë konceptin e ri dhe ta zbatojë atë kur gjeneron imazhe. Nëse po krijoni pesha LoRa për të krijuar imazhe të njerëzve dhe fytyrave specifike, përdorni këtë zgjidhje vetëm në fytyrën tuaj ose në fytyrat e njerëzve që ju kanë dhënë leje për ta bërë këtë.

Më poshtë është rezultati nga një model i personalizuar i trajnuar mbi imazhet e çajnikëve nga grupi i të dhënave DreamBooth , duke përdorur simbolin "monadikos teapot":

Një imazh realist fotografik i krijuar i një çajniku të ulur në një tavolinë pranë një pasqyre të montuar në një mur

Prompt : një çajnik monadikos pranë një pasqyre

Modeli i personalizuar mori shenjën në kërkesë dhe injektoi një çajnik që mësoi të përshkruante nga peshat LoRA dhe e vendos imazhin pranë një pasqyre siç kërkohet në kërkesë.

LoRA me Vertex AI

Për më shumë informacion, shihni udhëzuesin e personalizimit , i cili përdor Model Garden në Vertex AI për të personalizuar një model duke aplikuar peshat LoRA në një model themeli.