Detyra MediaPipe Image Generator ju lejon të gjeneroni imazhe bazuar në një kërkesë teksti. Kjo detyrë përdor një model tekst-në-imazh për të gjeneruar imazhe duke përdorur teknikat e difuzionit.
Detyra pranon një kërkesë teksti si hyrje, së bashku me një imazh të gjendjes opsionale që modeli mund ta shtojë dhe ta përdorë si referencë për gjenerim. Për më shumë mbi gjenerimin e kushtëzuar tekst-në-imazh, shihni shtojcat e difuzionit në pajisje për gjenerimin e kushtëzuar tekst-në-imazh .
Gjeneruesi i imazheve mund të gjenerojë gjithashtu imazhe bazuar në koncepte specifike që i janë dhënë modelit gjatë trajnimit ose rikualifikimit. Për më shumë informacion, shihni personalizo me LoRA .
Filloni
Filloni ta përdorni këtë detyrë duke ndjekur një nga këto udhëzues zbatimi për platformën tuaj të synuar. Këta udhëzues specifikë për platformën ju udhëzojnë përmes një zbatimi bazë të kësaj detyre, me shembuj kodesh që përdorin një model të paracaktuar dhe opsionet e rekomanduara të konfigurimit:
- Android - Shembull kodi - Udhëzues
- Personalizojeni me LoRA - Shembull Kodi - Colab
Detajet e detyrës
Ky seksion përshkruan aftësitë, hyrjet, daljet dhe opsionet e konfigurimit të kësaj detyre.
Veçoritë
Ju mund të përdorni Gjeneratorin e Imazheve për të zbatuar sa vijon:
- Gjenerimi i tekstit në imazh - Gjeneroni imazhe me një kërkesë teksti.
- Gjenerimi i imazheve me imazhe të kushteve - Gjeneroni imazhe me një mesazh teksti dhe një imazh referencë. Gjeneruesi i imazheve përdor imazhet e gjendjes në mënyra të ngjashme me ControlNet .
- Gjenerimi i imazheve me peshat LoRA - Gjeneroni imazhe të njerëzve, objekteve dhe stileve të veçanta me një mesazh teksti duke përdorur pesha të personalizuara të modelit.
Hyrjet e detyrave | Rezultatet e detyrave |
---|---|
Gjeneratori i imazhit pranon hyrjet e mëposhtme:
| Gjeneruesi i imazhit nxjerr rezultatet e mëposhtme:
|
Opsionet e konfigurimeve
Kjo detyrë ka opsionet e mëposhtme të konfigurimit:
Emri i opsionit | Përshkrimi | Gama e vlerave |
---|---|---|
imageGeneratorModelDirectory | Drejtoria e modelit të gjeneratorit të imazhit që ruan peshat e modelit. | PATH |
loraWeightsFilePath | Përcakton shtegun për skedarin e peshave LoRA. Opsionale dhe e zbatueshme vetëm nëse modeli është personalizuar me LoRA. | PATH |
errorListener | Vendos një dëgjues opsional gabimi. | N/A |
Detyra gjithashtu mbështet modelet e shtojcave, të cilat i lejojnë përdoruesit të përfshijnë imazhe të kushteve në hyrjen e detyrës, të cilat modeli i themelit mund t'i shtojë dhe t'i përdorë si referencë për gjenerim. Këto imazhe të gjendjes mund të jenë pika referimi të fytyrës, skica të skajeve dhe vlerësime të thellësisë, të cilat modeli i përdor si kontekst dhe informacion shtesë për të gjeneruar imazhe.
Kur shtoni një model shtesë në modelin e themelimit, konfiguroni gjithashtu opsionet e shtojcave. Shtojca shtesë Face pikë referimi përdor faceConditionOptions
, plugin Canny edge përdor edgeConditionOptions
dhe plugin Depth përdor depthConditionOptions
.
Opsione të këndshme të skajeve
Konfiguro opsionet e mëposhtme në edgeConditionOptions
.
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
threshold1 | Pragu i parë për procedurën e histerezës. | Float | 100 |
threshold2 | Pragu i dytë për procedurën e histerezës. | Float | 200 |
apertureSize | Madhësia e hapjes për operatorin Sobel. Gama tipike është midis 3-7. | Integer | 3 |
l2Gradient | Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së paracaktuar L1. | BOOLEAN | False |
EdgePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detektorin e skajeve Canny .
Opsionet e pikë referimi të fytyrës
Konfiguro opsionet e mëposhtme në faceConditionOptions
.
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
minFaceDetectionConfidence | Rezultati minimal i besimit për zbulimin e fytyrës për t'u konsideruar i suksesshëm. | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikës referimi të fytyrës. | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. | Objekti i BaseOptions | N/A |
FacePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .
Opsionet e thellësisë
Konfiguro opsionet e mëposhtme në depthConditionOptions
.
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
depthModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. | Objekti i BaseOptions | N/A |
depthPluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Modelet
Gjeneruesi i imazhit kërkon një model themeli, i cili është një model i AI-t tekst-për-imazh që përdor teknikat e difuzionit për të gjeneruar imazhe të reja. Modelet e bazamentit të listuara në këtë seksion janë modele të lehta të optimizuara për t'u përdorur në telefonat inteligjentë të nivelit të lartë.
Modelet e shtojcave janë opsionale dhe plotësojnë modelet themelore, duke u mundësuar përdoruesve të ofrojnë një imazh shtesë të gjendjes së bashku me një mesazh teksti, për gjenerimin e imazheve më specifike. Përshtatja e modeleve të themelit duke përdorur peshat LoRA është një opsion që i mëson modelit të themelit për një koncept specifik, si një objekt, person ose stil, dhe i injekton ato në imazhet e krijuara.
Modelet e fondacionit
Modelet e themelit janë modele latente të difuzionit tekst-në-imazh që gjenerojnë imazhe nga një mesazh teksti. Gjeneruesi i imazhit kërkon që modeli i themelit të përputhet me formatin e modelit runwayml/stable-diffusion-v1-5 EMA-only
, bazuar në modelin e mëposhtëm:
Modelet e mëposhtme të themelit janë gjithashtu të pajtueshme me Gjeneratorin e Imazhit:
Pasi të keni shkarkuar një model themeli, përdorni imazhin_generator_converter për ta kthyer modelin në formatin e duhur në pajisje për Gjeneratorin e Imazhit.
Instaloni varësitë e nevojshme:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
Ekzekutoni skriptin convert.py
:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
Modelet e shtojcave
Modelet e shtojcave në këtë seksion janë zhvilluar nga Google dhe duhet të përdoren në kombinim me një model themeli. Modelet e shtojcave mundësojnë që Gjeneratori i Imazhit të pranojë një imazh kushti së bashku me një kërkesë teksti si hyrje, e cila ju lejon të kontrolloni strukturën e imazheve të krijuara. Modelet e shtojcave ofrojnë aftësi të ngjashme me ControlNet , me një arkitekturë të re posaçërisht për përhapjen në pajisje .
Modelet e shtojcave duhet të specifikohen në opsionet bazë dhe mund t'ju kërkojnë të shkarkoni skedarë modelesh shtesë. Çdo shtojcë ka kërkesa unike për imazhin e gjendjes, e cila mund të gjenerohet nga Gjeneruesi i Imazheve.
Shtojca Canny Edge
Shtojca Canny Edge pranon një imazh kushti që përshkruan skajet e synuara të imazhit të krijuar. Modeli i themelit përdor skajet e nënkuptuara nga imazhi i gjendjes dhe gjeneron një imazh të ri bazuar në kërkesën e tekstit. Gjeneruesi i imazheve përmban aftësi të integruara për të krijuar imazhe të kushteve dhe kërkon vetëm shkarkimin e modelit të shtojcës.
Shtojca Canny Edge përmban opsionet e mëposhtme të konfigurimit:
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
threshold1 | Pragu i parë për procedurën e histerezës. | Float | 100 |
threshold2 | Pragu i dytë për procedurën e histerezës. | Float | 200 |
apertureSize | Madhësia e hapjes për operatorin Sobel. Gama tipike është midis 3-7. | Integer | 3 |
l2Gradient | Nëse norma L2 përdoret për të llogaritur madhësinë e gradientit të imazhit, në vend të normës së paracaktuar L1. | BOOLEAN | False |
EdgePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detektorin e skajeve Canny .
Shtojca Face Landmark
Shtojca Face Landmark pranon daljen nga MediaPipe Face Landmarker si imazhin e gjendjes. Face Landmarker ofron një rrjetë të detajuar të fytyrës së një fytyre të vetme, e cila harton praninë dhe vendndodhjen e tipareve të fytyrës. Modeli i themelit përdor hartën e fytyrës të nënkuptuar nga imazhi i gjendjes dhe gjeneron një fytyrë të re mbi rrjetë.
Shkarkoni shtesën "Face pikë referimi".
Shtojca e pikë referimi Face kërkon gjithashtu paketën e modelit Face Landmarker për të krijuar imazhin e gjendjes. Kjo paketë modeli është e njëjta paketë e përdorur nga detyra Face Landmarker .
Shkarkoni paketën e modelit të Face pikë referimi
Shtojca Face Landmark përmban opsionet e mëposhtme të konfigurimit:
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
minFaceDetectionConfidence | Rezultati minimal i besimit për zbulimin e fytyrës për t'u konsideruar i suksesshëm. | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | Rezultati minimal i besimit të rezultatit të pranisë së fytyrës në zbulimin e pikës referimi të fytyrës. | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. | Objekti i BaseOptions | N/A |
FacePluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Për më shumë informacion se si funksionojnë këto opsione konfigurimi, shihni detyrën Face Landmarker .
Shtojca e thellësisë
Shtojca Depth pranon një imazh kushti që specifikon thellësinë monokulare të një objekti. Modeli i themelit përdor imazhin e gjendjes për të konstatuar madhësinë dhe thellësinë e objektit që do të gjenerohet dhe gjeneron një imazh të ri bazuar në kërkesën e tekstit.
Shtojca Depth kërkon gjithashtu një model të vlerësimit të thellësisë për të krijuar imazhin e gjendjes.
Shkarkoni modelin e vlerësimit të thellësisë
Shtojca Depth përmban opsionet e mëposhtme të konfigurimit:
Emri i opsionit | Përshkrimi | Gama e vlerave | Vlera e paracaktuar |
---|---|---|---|
depthModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin që krijon imazhin e kushtit. | Objekti i BaseOptions | N/A |
depthPluginModelBaseOptions | Objekti BaseOptions që përcakton shtegun për modelin e shtojcave. | Objekti i BaseOptions | N/A |
Përshtatje me LoRA
Përshtatja e një modeli me LoRA mund t'i mundësojë Gjeneratorit të Imazheve të gjenerojë imazhe bazuar në koncepte specifike, të cilat identifikohen nga shenja unike gjatë trajnimit. Me peshat e reja LoRA pas stërvitjes, modeli është në gjendje të gjenerojë imazhe të konceptit të ri kur token specifikohet në kërkesën e tekstit.
Krijimi i peshave LoRA kërkon trajnimin e një modeli themeli mbi imazhet e një objekti, personi ose stili specifik, i cili i mundëson modelit të njohë konceptin e ri dhe ta zbatojë atë kur gjeneron imazhe. Nëse po krijoni pesha LoRa për të krijuar imazhe të njerëzve dhe fytyrave specifike, përdorni këtë zgjidhje vetëm në fytyrën tuaj ose në fytyrat e njerëzve që ju kanë dhënë leje për ta bërë këtë.
Më poshtë është rezultati nga një model i personalizuar i trajnuar mbi imazhet e çajnikëve nga grupi i të dhënave DreamBooth , duke përdorur simbolin "monadikos teapot":
Prompt : një çajnik monadikos pranë një pasqyre
Modeli i personalizuar mori shenjën në kërkesë dhe injektoi një çajnik që mësoi të përshkruante nga peshat LoRA dhe e vendos imazhin pranë një pasqyre siç kërkohet në kërkesë.
Për më shumë informacion, shihni udhëzuesin e personalizimit , i cili përdor Model Garden në Vertex AI për të personalizuar një model duke aplikuar peshat LoRA në një model themeli.