MediaPipe इमेज जनरेटर टास्क की मदद से, टेक्स्ट प्रॉम्प्ट के आधार पर इमेज जनरेट की जा सकती हैं. यह टास्क, टेक्स्ट-टू-इमेज मॉडल का इस्तेमाल करता है, ताकि डिफ़्यूज़न तकनीकों का इस्तेमाल करके इमेज जनरेट की जा सकें.
यह टास्क, इनपुट के तौर पर टेक्स्ट प्रॉम्प्ट के साथ-साथ, शर्त की वैकल्पिक इमेज भी स्वीकार करता है जिसे मॉडल, बेहतर बनाने के साथ-साथ, जनरेट करने के लिए रेफ़रंस के तौर पर इस्तेमाल कर सके. ज़्यादा जानकारी के लिए टेक्स्ट-टू-इमेज जनरेट करने के लिए उपलब्ध है, तो इसके लिए ऑन-डिवाइस डिफ़्यूज़न प्लगिन देखें शर्त के साथ टेक्स्ट-टू-इमेज जेनरेशन है.
इमेज जनरेटर के दौरान मॉडल को प्रदान किए गए विशिष्ट सिद्धांतों के आधार पर भी चित्र जनरेट कर सकता है ट्रेनिंग या फिर से ट्रेनिंग मोड में हैं. अधिक जानकारी के लिए, देखें इसके साथ कस्टमाइज़ करें LoRA.
शुरू करें
इस टास्क का इस्तेमाल शुरू करने के लिए, यहां दिए गए लागू करने के दिशा-निर्देशों में से किसी एक को अपनाएं. टारगेट प्लैटफ़ॉर्म पर लागू होता है. प्लैटफ़ॉर्म के हिसाब से, इन गाइड से आपको बुनियादी चीज़ों के बारे में जानकारी मिलेगी इस टास्क को लागू करने के साथ-साथ, कोड के ऐसे उदाहरण भी शामिल करें जिनमें डिफ़ॉल्ट मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्प:
- Android - कोड का उदाहरण - गाइड
- LoRA की मदद से पसंद के मुताबिक बनाएं - कोड उदाहरण - Colab
टास्क की जानकारी
इस सेक्शन में सुविधाओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के बारे में बताया गया है इस टास्क के विकल्प देखें.
सुविधाएं
इमेज जनरेटर का इस्तेमाल करके, इन चीज़ों को लागू किया जा सकता है:
- टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करना - टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करें.
- शर्त वाली इमेज के साथ इमेज जनरेट करना - टेक्स्ट के साथ इमेज जनरेट करें प्रॉम्प्ट और एक रेफ़रंस इमेज. इमेज जनरेट करने वाला टूल, स्थिति वाली इमेज का इस्तेमाल ऐसे तरीकों से करता है ControlNet से मिलता-जुलता.
- LoRA वेट के साथ इमेज जनरेट करना - खास लोगों की इमेज जनरेट करें, ऑब्जेक्ट, और स्टाइल के साथ टेक्स्ट प्रॉम्प्ट के साथ काम करता है.
टास्क के इनपुट | टास्क के आउटपुट |
---|---|
इमेज जनरेटर इन इनपुट को स्वीकार करता है:
|
इमेज जनरेटर से ये नतीजे मिलते हैं:
|
कॉन्फ़िगरेशन के विकल्प
इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:
विकल्प का नाम | ब्यौरा | मान की सीमा |
---|---|---|
imageGeneratorModelDirectory |
इमेज जनरेटर मॉडल डायरेक्ट्री, जिसमें मॉडल का वज़न सेव किया जाता है. | PATH |
loraWeightsFilePath |
LoRA वेट फ़ाइल का पाथ सेट करता है. ज़रूरी नहीं है और सिर्फ़ तब लागू होता है, जब मॉडल को LoRA की मदद से कस्टमाइज़ किया गया. | PATH |
errorListener |
गड़बड़ी की जानकारी देने वाला वैकल्पिक लिसनर सेट करता है. | N/A |
यह टास्क, प्लगिन मॉडल के साथ भी काम करता है. इसकी मदद से, लोग शर्त वाली इमेज शामिल कर सकते हैं जिसे फ़ाउंडेशन मॉडल, बेहतर तरीके से बेहतर बना सकता है और रेफ़रंस के तौर पर इस्तेमाल कर सकता है इस्तेमाल किया जा सकता है. स्थिति बताने वाली इन इमेज में चेहरे का लैंडमार्क, किनारों की आउटलाइन, और ज़्यादा जानकारी का अनुमान लगाने के लिए, जिनका इस्तेमाल मॉडल ज़्यादा कॉन्टेक्स्ट और जानकारी के तौर पर करता है, ताकि इमेज जनरेट करने के लिए.
फ़ाउंडेशन मॉडल में प्लगिन मॉडल जोड़ते समय, प्लगिन को भी कॉन्फ़िगर करें
के विकल्प. फ़ेस लैंडमार्क प्लगिन faceConditionOptions
, कैनी एज का इस्तेमाल करता है
प्लगिन edgeConditionOptions
का इस्तेमाल करता है और डेप्थ प्लगिन
depthConditionOptions
.
कैनी एज के विकल्प
edgeConditionOptions
में ये विकल्प कॉन्फ़िगर करें.
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
threshold1 |
हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड. | Float |
100 |
threshold2 |
हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड. | Float |
200 |
apertureSize |
Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है. | Integer |
3 |
l2Gradient |
क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
कॉन्फ़िगरेशन के ये विकल्प कैसे काम करते हैं, इस बारे में ज़्यादा जानने के लिए यहां जाएं कैनी एज डिटेक्टर.
चेहरे से जुड़े लैंडमार्क के विकल्प
faceConditionOptions
में ये विकल्प कॉन्फ़िगर करें.
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
minFaceDetectionConfidence |
चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
इस्तेमाल किया जा सकता है. |
BaseOptions ऑब्जेक्ट |
N/A |
FacePluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
इन कॉन्फ़िगरेशन के विकल्पों के काम करने के तरीके के बारे में ज़्यादा जानने के लिए, फ़ेस लैंडमार्कर टास्क.
डेप्थ के विकल्प
depthConditionOptions
में ये विकल्प कॉन्फ़िगर करें.
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
depthModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
इस्तेमाल किया जा सकता है. |
BaseOptions ऑब्जेक्ट |
N/A |
depthPluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
मॉडल
इमेज जनरेट करने वाले टूल के लिए, फ़ाउंडेशन मॉडल की ज़रूरत होती है. यह मॉडल, टेक्स्ट-टू-इमेज एआई मॉडल होता है जो नई इमेज जनरेट करने के लिए डिफ़्यूज़न तकनीकों का इस्तेमाल करती हैं. फ़ाउंडेशन मॉडल इस सेक्शन में लाइटवेट मॉडल बताए गए हैं, जिन्हें हाई-एंड पर चलने के लिए ऑप्टिमाइज़ किया गया है है.
प्लगिन मॉडल ज़रूरी नहीं हैं. ये बुनियादी मॉडल के साथ काम करते हैं. इससे उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के साथ एक और शर्त वाली इमेज देनी होगी. ज़्यादा सटीक तरीके से इमेज जनरेट करने की सुविधा मिलती है. LoRA का इस्तेमाल करके फ़ाउंडेशन मॉडल को पसंद के मुताबिक बनाना वेट एक ऐसा विकल्प है जो फ़ाउंडेशन मॉडल को किसी खास कॉन्सेप्ट के बारे में पढ़ाता है, और उन्हें जनरेट की गई इमेज में इंजेक्ट करें.
फ़ाउंडेशन मॉडल
फ़ाउंडेशन मॉडल, लेटेंट टेक्स्ट-टू-इमेज डिफ़्यूज़न मॉडल हैं. ये जनरेट किए गए
टेक्स्ट प्रॉम्प्ट में से इमेज. इमेज जनरेटर के लिए, यह ज़रूरी है कि फ़ाउंडेशन मॉडल
runwayml/stable-diffusion-v1-5 EMA-only
मॉडल फ़ॉर्मैट से मैच करेगा.
नीचे दिया गया मॉडल:
इमेज जनरेट करने वाले टूल के साथ, यहां दिए गए फ़ाउंडेशन मॉडल भी काम करते हैं:
फ़ाउंडेशन मॉडल डाउनलोड करने के बाद, image_generator_converter उस मॉडल को डिवाइस पर सही फ़ॉर्मैट में बदला जा सकता है. इमेज जनरेटर.
ज़रूरी डिपेंडेंसी इंस्टॉल करें:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
यह चलाकर देखेंः
convert.py
स्क्रिप्ट:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
प्लग इन मॉडल
इस सेक्शन में दिए गए प्लगिन मॉडल Google ने डेवलप किए हैं. इनका इस्तेमाल साथ में इस्तेमाल किया जा सकता है. प्लग इन मॉडल, इमेज जनरेटर को इनके लिए चालू करते हैं इनपुट के तौर पर, टेक्स्ट प्रॉम्प्ट के साथ किसी शर्त की इमेज को स्वीकार करें. इससे आपको जनरेट की गई इमेज के स्ट्रक्चर को कंट्रोल कर सकते हैं. प्लगिन मॉडल, ControlNet जैसी सुविधाओं को नए आर्किटेक्चर को खास तौर पर ऑन-डिवाइस डिफ़्यूज़न का इस्तेमाल करें.
प्लगिन मॉडल को बेस विकल्पों में बताया जाना चाहिए. इसके लिए, आपको इनका इस्तेमाल करना पड़ सकता है अतिरिक्त मॉडल फ़ाइलें डाउनलोड करें. इसके लिए, हर प्लगिन की अपनी अलग शर्तें होती हैं कंडिशन इमेज, जिसे इमेज जनरेटर से जनरेट किया जा सकता है.
Canny Edge का प्लगिन
Canny Edge प्लगिन ऐसी शर्त वाली इमेज को स्वीकार करता है जो तय किए गए किनारों को आउटलाइन करती है जनरेट की गई इमेज होती है. फ़ाउंडेशन मॉडल, जनरेट करता है. साथ ही, टेक्स्ट प्रॉम्प्ट के आधार पर एक नई इमेज जनरेट करता है. कॉन्टेंट बनाने इमेज जनरेटर में स्थिति की इमेज बनाने के लिए पहले से ही सुविधाएं मौजूद होती हैं और सिर्फ़ प्लगिन मॉडल डाउनलोड करना ज़रूरी है.
Canny Edge का प्लगिन डाउनलोड करें
Canny Edge प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
threshold1 |
हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड. | Float |
100 |
threshold2 |
हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड. | Float |
200 |
apertureSize |
Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है. | Integer |
3 |
l2Gradient |
क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
कॉन्फ़िगरेशन के ये विकल्प कैसे काम करते हैं, इस बारे में ज़्यादा जानने के लिए यहां जाएं कैनी एज डिटेक्टर.
फ़ेस लैंडमार्क प्लगिन
फ़ेस लैंडमार्क प्लगिन MediaPipe Face से मिले आउटपुट को स्वीकार करता है लैंडमार्क, स्थिति की इमेज के तौर पर. द फ़ेस लैंडमार्कर, एक ही चेहरे की ज़्यादा जानकारी वाला फ़ेस मेश दिखाता है. यह मैप को चेहरे के हाव-भाव और जगह की जानकारी. फ़ाउंडेशन मॉडल, फ़ेशियल मैपिंग, स्थिति इमेज से ज़ाहिर होती है और मेश के ऊपर एक नया फ़ेस जनरेट करती है.
फ़ेस लैंडमार्क प्लग इन डाउनलोड करें
चेहरा लैंडमार्क प्लग इन के लिए फ़ेस लैंडमार्कर मॉडल की भी ज़रूरत होती है बंडल पर क्लिक करें. यह मॉडल बंडल वही बंडल है जिसका इस्तेमाल फ़ेस लैंडमार्कर टास्क.
फ़ेस लैंडमार्क मॉडल बंडल डाउनलोड करें
फ़ेस लैंडमार्क प्लग इन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
minFaceDetectionConfidence |
चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
इस्तेमाल किया जा सकता है. |
BaseOptions ऑब्जेक्ट |
N/A |
FacePluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
इन कॉन्फ़िगरेशन के विकल्पों के काम करने के तरीके के बारे में ज़्यादा जानने के लिए, फ़ेस लैंडमार्कर टास्क.
डेप्थ प्लगिन
डेप्थ प्लगिन ऐसी स्थिति इमेज को स्वीकार करता है जो कोई ऑब्जेक्ट. फ़ाउंडेशन मॉडल, शर्त वाली इमेज का इस्तेमाल करके, ऑब्जेक्ट की गहराई जनरेट करता है, जिसे जनरेट करना है. साथ ही, टेक्स्ट के आधार पर एक नई इमेज जनरेट करता है प्रॉम्प्ट.
डेप्थ प्लगिन के लिए, गहराई का अनुमान लगाने वाले मॉडल की भी ज़रूरत होती है, ताकि कंडिशन बनाई जा सके इमेज.
गहराई का अनुमान लगाने वाला मॉडल डाउनलोड करें
डेप्थ प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:
विकल्प का नाम | ब्यौरा | मान की सीमा | डिफ़ॉल्ट मान |
---|---|---|---|
depthModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
इस्तेमाल किया जा सकता है. |
BaseOptions ऑब्जेक्ट |
N/A |
depthPluginModelBaseOptions |
BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है
. |
BaseOptions ऑब्जेक्ट |
N/A |
LoRA की मदद से मनमुताबिक बनाएं
LoRA के साथ मॉडल को पसंद के मुताबिक बनाने पर, खास कॉन्सेप्ट के आधार पर इमेज जनरेट करने के लिए इमेज जनरेटर, जो जिन्हें ट्रेनिंग के दौरान यूनीक टोकन से पहचाना जाता है. नए LoRA वज़न के साथ ट्रेनिंग के दौरान, यह मॉडल टोकन टेक्स्ट प्रॉम्प्ट में मौजूद है.
LoRA वेट बनाने के लिए, मॉडल को ट्रेनिंग देने के लिए, किसी खास ऑब्जेक्ट, व्यक्ति या स्टाइल से मिलता है. इससे मॉडल, हैं और इसे इमेज जनरेट करते समय लागू करें. अगर आपको खास लोगों और चेहरों की इमेज जनरेट करें. इस समाधान का इस्तेमाल सिर्फ़ अपने उन लोगों के चेहरे या उनके चेहरे जिन्होंने आपको ऐसा करने की अनुमति दी है.
नीचे एक कस्टमाइज़ किए गए मॉडल से मिला नतीजा दिया गया है, जिसे चाय के बर्तन DreamBooth डेटासेट, का इस्तेमाल करके टोकन "मोनाडीकोस टीपॉट":
प्रॉम्प्ट: आईने के बगल में रखा हुआ मोनैडिकोस टीपॉट
पसंद के मुताबिक बनाए गए मॉडल को प्रॉम्प्ट में टोकन मिला और उसने एक टीपॉट डाला, जो उसने लोआरए वेट से समझाना सीख लिया है और इसे इमेज के बगल में स्क्रीन शेयर करें, जैसा कि प्रॉम्प्ट में बताया गया है.
ज़्यादा जानकारी के लिए, पसंद के मुताबिक बनाना देखें गाइड, जो Vertex AI पर मॉडल गार्डन ताकि फ़ाउंडेशन मॉडल पर LoRA वेट लागू करके मॉडल को पसंद के मुताबिक बनाया जा सके.