इमेज जनरेट करने की गाइड

MediaPipe इमेज जनरेटर टास्क की मदद से, टेक्स्ट प्रॉम्प्ट के आधार पर इमेज जनरेट की जा सकती हैं. यह टास्क, टेक्स्ट-टू-इमेज मॉडल का इस्तेमाल करता है, ताकि डिफ़्यूज़न तकनीकों का इस्तेमाल करके इमेज जनरेट की जा सकें.

यह टास्क, इनपुट के तौर पर टेक्स्ट प्रॉम्प्ट के साथ-साथ, शर्त की वैकल्पिक इमेज भी स्वीकार करता है जिसे मॉडल, बेहतर बनाने के साथ-साथ, जनरेट करने के लिए रेफ़रंस के तौर पर इस्तेमाल कर सके. ज़्यादा जानकारी के लिए टेक्स्ट-टू-इमेज जनरेट करने के लिए उपलब्ध है, तो इसके लिए ऑन-डिवाइस डिफ़्यूज़न प्लगिन देखें शर्त के साथ टेक्स्ट-टू-इमेज जेनरेशन है.

इमेज जनरेटर के दौरान मॉडल को प्रदान किए गए विशिष्ट सिद्धांतों के आधार पर भी चित्र जनरेट कर सकता है ट्रेनिंग या फिर से ट्रेनिंग मोड में हैं. अधिक जानकारी के लिए, देखें इसके साथ कस्टमाइज़ करें LoRA.

शुरू करें

इस टास्क का इस्तेमाल शुरू करने के लिए, यहां दिए गए लागू करने के दिशा-निर्देशों में से किसी एक को अपनाएं. टारगेट प्लैटफ़ॉर्म पर लागू होता है. प्लैटफ़ॉर्म के हिसाब से, इन गाइड से आपको बुनियादी चीज़ों के बारे में जानकारी मिलेगी इस टास्क को लागू करने के साथ-साथ, कोड के ऐसे उदाहरण भी शामिल करें जिनमें डिफ़ॉल्ट मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्प:

टास्क की जानकारी

इस सेक्शन में सुविधाओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के बारे में बताया गया है इस टास्क के विकल्प देखें.

सुविधाएं

इमेज जनरेटर का इस्तेमाल करके, इन चीज़ों को लागू किया जा सकता है:

  1. टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करना - टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करें.
  2. शर्त वाली इमेज के साथ इमेज जनरेट करना - टेक्स्ट के साथ इमेज जनरेट करें प्रॉम्प्ट और एक रेफ़रंस इमेज. इमेज जनरेट करने वाला टूल, स्थिति वाली इमेज का इस्तेमाल ऐसे तरीकों से करता है ControlNet से मिलता-जुलता.
  3. LoRA वेट के साथ इमेज जनरेट करना - खास लोगों की इमेज जनरेट करें, ऑब्जेक्ट, और स्टाइल के साथ टेक्स्ट प्रॉम्प्ट के साथ काम करता है.
टास्क के इनपुट टास्क के आउटपुट
इमेज जनरेटर इन इनपुट को स्वीकार करता है:
  • मैसेज भेजें
  • बीज
  • जनरेटिव एआई के इस्तेमाल की संख्या
  • ज़रूरी नहीं: शर्त वाली इमेज
इमेज जनरेटर से ये नतीजे मिलते हैं:
  • इनपुट के आधार पर जनरेट की गई इमेज.
  • ज़रूरी नहीं: जनरेट की गई इमेज के बार-बार दिखाए जाने वाले स्नैपशॉट.

कॉन्फ़िगरेशन के विकल्प

इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:

विकल्प का नाम ब्यौरा मान की सीमा
imageGeneratorModelDirectory इमेज जनरेटर मॉडल डायरेक्ट्री, जिसमें मॉडल का वज़न सेव किया जाता है. PATH
loraWeightsFilePath LoRA वेट फ़ाइल का पाथ सेट करता है. ज़रूरी नहीं है और सिर्फ़ तब लागू होता है, जब मॉडल को LoRA की मदद से कस्टमाइज़ किया गया. PATH
errorListener गड़बड़ी की जानकारी देने वाला वैकल्पिक लिसनर सेट करता है. N/A

यह टास्क, प्लगिन मॉडल के साथ भी काम करता है. इसकी मदद से, लोग शर्त वाली इमेज शामिल कर सकते हैं जिसे फ़ाउंडेशन मॉडल, बेहतर तरीके से बेहतर बना सकता है और रेफ़रंस के तौर पर इस्तेमाल कर सकता है इस्तेमाल किया जा सकता है. स्थिति बताने वाली इन इमेज में चेहरे का लैंडमार्क, किनारों की आउटलाइन, और ज़्यादा जानकारी का अनुमान लगाने के लिए, जिनका इस्तेमाल मॉडल ज़्यादा कॉन्टेक्स्ट और जानकारी के तौर पर करता है, ताकि इमेज जनरेट करने के लिए.

फ़ाउंडेशन मॉडल में प्लगिन मॉडल जोड़ते समय, प्लगिन को भी कॉन्फ़िगर करें के विकल्प. फ़ेस लैंडमार्क प्लगिन faceConditionOptions, कैनी एज का इस्तेमाल करता है प्लगिन edgeConditionOptions का इस्तेमाल करता है और डेप्थ प्लगिन depthConditionOptions.

कैनी एज के विकल्प

edgeConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
threshold1 हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड. Float 100
threshold2 हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड. Float 200
apertureSize Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है. Integer 3
l2Gradient क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी. BOOLEAN False
EdgePluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

कॉन्फ़िगरेशन के ये विकल्प कैसे काम करते हैं, इस बारे में ज़्यादा जानने के लिए यहां जाएं कैनी एज डिटेक्टर.

चेहरे से जुड़े लैंडमार्क के विकल्प

faceConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
minFaceDetectionConfidence चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है. Float [0.0,1.0] 0.5
minFacePresenceConfidence चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें. Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है. BaseOptions ऑब्जेक्ट N/A
FacePluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

इन कॉन्फ़िगरेशन के विकल्पों के काम करने के तरीके के बारे में ज़्यादा जानने के लिए, फ़ेस लैंडमार्कर टास्क.

डेप्थ के विकल्प

depthConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
depthModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है. BaseOptions ऑब्जेक्ट N/A
depthPluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

मॉडल

इमेज जनरेट करने वाले टूल के लिए, फ़ाउंडेशन मॉडल की ज़रूरत होती है. यह मॉडल, टेक्स्ट-टू-इमेज एआई मॉडल होता है जो नई इमेज जनरेट करने के लिए डिफ़्यूज़न तकनीकों का इस्तेमाल करती हैं. फ़ाउंडेशन मॉडल इस सेक्शन में लाइटवेट मॉडल बताए गए हैं, जिन्हें हाई-एंड पर चलने के लिए ऑप्टिमाइज़ किया गया है है.

प्लगिन मॉडल ज़रूरी नहीं हैं. ये बुनियादी मॉडल के साथ काम करते हैं. इससे उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के साथ एक और शर्त वाली इमेज देनी होगी. ज़्यादा सटीक तरीके से इमेज जनरेट करने की सुविधा मिलती है. LoRA का इस्तेमाल करके फ़ाउंडेशन मॉडल को पसंद के मुताबिक बनाना वेट एक ऐसा विकल्प है जो फ़ाउंडेशन मॉडल को किसी खास कॉन्सेप्ट के बारे में पढ़ाता है, और उन्हें जनरेट की गई इमेज में इंजेक्ट करें.

फ़ाउंडेशन मॉडल

फ़ाउंडेशन मॉडल, लेटेंट टेक्स्ट-टू-इमेज डिफ़्यूज़न मॉडल हैं. ये जनरेट किए गए टेक्स्ट प्रॉम्प्ट में से इमेज. इमेज जनरेटर के लिए, यह ज़रूरी है कि फ़ाउंडेशन मॉडल runwayml/stable-diffusion-v1-5 EMA-only मॉडल फ़ॉर्मैट से मैच करेगा. नीचे दिया गया मॉडल:

इमेज जनरेट करने वाले टूल के साथ, यहां दिए गए फ़ाउंडेशन मॉडल भी काम करते हैं:

फ़ाउंडेशन मॉडल डाउनलोड करने के बाद, image_generator_converter उस मॉडल को डिवाइस पर सही फ़ॉर्मैट में बदला जा सकता है. इमेज जनरेटर.

ज़रूरी डिपेंडेंसी इंस्टॉल करें:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

यह चलाकर देखेंः convert.py स्क्रिप्ट:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

प्लग इन मॉडल

इस सेक्शन में दिए गए प्लगिन मॉडल Google ने डेवलप किए हैं. इनका इस्तेमाल साथ में इस्तेमाल किया जा सकता है. प्लग इन मॉडल, इमेज जनरेटर को इनके लिए चालू करते हैं इनपुट के तौर पर, टेक्स्ट प्रॉम्प्ट के साथ किसी शर्त की इमेज को स्वीकार करें. इससे आपको जनरेट की गई इमेज के स्ट्रक्चर को कंट्रोल कर सकते हैं. प्लगिन मॉडल, ControlNet जैसी सुविधाओं को नए आर्किटेक्चर को खास तौर पर ऑन-डिवाइस डिफ़्यूज़न का इस्तेमाल करें.

प्लगिन मॉडल को बेस विकल्पों में बताया जाना चाहिए. इसके लिए, आपको इनका इस्तेमाल करना पड़ सकता है अतिरिक्त मॉडल फ़ाइलें डाउनलोड करें. इसके लिए, हर प्लगिन की अपनी अलग शर्तें होती हैं कंडिशन इमेज, जिसे इमेज जनरेटर से जनरेट किया जा सकता है.

Canny Edge का प्लगिन

Canny Edge प्लगिन ऐसी शर्त वाली इमेज को स्वीकार करता है जो तय किए गए किनारों को आउटलाइन करती है जनरेट की गई इमेज होती है. फ़ाउंडेशन मॉडल, जनरेट करता है. साथ ही, टेक्स्ट प्रॉम्प्ट के आधार पर एक नई इमेज जनरेट करता है. कॉन्टेंट बनाने इमेज जनरेटर में स्थिति की इमेज बनाने के लिए पहले से ही सुविधाएं मौजूद होती हैं और सिर्फ़ प्लगिन मॉडल डाउनलोड करना ज़रूरी है.

Canny Edge का प्लगिन डाउनलोड करें

Canny Edge प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
threshold1 हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड. Float 100
threshold2 हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड. Float 200
apertureSize Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है. Integer 3
l2Gradient क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी. BOOLEAN False
EdgePluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

कॉन्फ़िगरेशन के ये विकल्प कैसे काम करते हैं, इस बारे में ज़्यादा जानने के लिए यहां जाएं कैनी एज डिटेक्टर.

फ़ेस लैंडमार्क प्लगिन

फ़ेस लैंडमार्क प्लगिन MediaPipe Face से मिले आउटपुट को स्वीकार करता है लैंडमार्क, स्थिति की इमेज के तौर पर. द फ़ेस लैंडमार्कर, एक ही चेहरे की ज़्यादा जानकारी वाला फ़ेस मेश दिखाता है. यह मैप को चेहरे के हाव-भाव और जगह की जानकारी. फ़ाउंडेशन मॉडल, फ़ेशियल मैपिंग, स्थिति इमेज से ज़ाहिर होती है और मेश के ऊपर एक नया फ़ेस जनरेट करती है.

फ़ेस लैंडमार्क प्लग इन डाउनलोड करें

चेहरा लैंडमार्क प्लग इन के लिए फ़ेस लैंडमार्कर मॉडल की भी ज़रूरत होती है बंडल पर क्लिक करें. यह मॉडल बंडल वही बंडल है जिसका इस्तेमाल फ़ेस लैंडमार्कर टास्क.

फ़ेस लैंडमार्क मॉडल बंडल डाउनलोड करें

फ़ेस लैंडमार्क प्लग इन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
minFaceDetectionConfidence चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है. Float [0.0,1.0] 0.5
minFacePresenceConfidence चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें. Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है. BaseOptions ऑब्जेक्ट N/A
FacePluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

इन कॉन्फ़िगरेशन के विकल्पों के काम करने के तरीके के बारे में ज़्यादा जानने के लिए, फ़ेस लैंडमार्कर टास्क.

डेप्थ प्लगिन

डेप्थ प्लगिन ऐसी स्थिति इमेज को स्वीकार करता है जो कोई ऑब्जेक्ट. फ़ाउंडेशन मॉडल, शर्त वाली इमेज का इस्तेमाल करके, ऑब्जेक्ट की गहराई जनरेट करता है, जिसे जनरेट करना है. साथ ही, टेक्स्ट के आधार पर एक नई इमेज जनरेट करता है प्रॉम्प्ट.

डाउनलोड डेप्थ प्लग इन

डेप्थ प्लगिन के लिए, गहराई का अनुमान लगाने वाले मॉडल की भी ज़रूरत होती है, ताकि कंडिशन बनाई जा सके इमेज.

गहराई का अनुमान लगाने वाला मॉडल डाउनलोड करें

डेप्थ प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम ब्यौरा मान की सीमा डिफ़ॉल्ट मान
depthModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है. BaseOptions ऑब्जेक्ट N/A
depthPluginModelBaseOptions BaseOptions ऑब्जेक्ट, जो पाथ सेट करता है . BaseOptions ऑब्जेक्ट N/A

LoRA की मदद से मनमुताबिक बनाएं

LoRA के साथ मॉडल को पसंद के मुताबिक बनाने पर, खास कॉन्सेप्ट के आधार पर इमेज जनरेट करने के लिए इमेज जनरेटर, जो जिन्हें ट्रेनिंग के दौरान यूनीक टोकन से पहचाना जाता है. नए LoRA वज़न के साथ ट्रेनिंग के दौरान, यह मॉडल टोकन टेक्स्ट प्रॉम्प्ट में मौजूद है.

LoRA वेट बनाने के लिए, मॉडल को ट्रेनिंग देने के लिए, किसी खास ऑब्जेक्ट, व्यक्ति या स्टाइल से मिलता है. इससे मॉडल, हैं और इसे इमेज जनरेट करते समय लागू करें. अगर आपको खास लोगों और चेहरों की इमेज जनरेट करें. इस समाधान का इस्तेमाल सिर्फ़ अपने उन लोगों के चेहरे या उनके चेहरे जिन्होंने आपको ऐसा करने की अनुमति दी है.

नीचे एक कस्टमाइज़ किए गए मॉडल से मिला नतीजा दिया गया है, जिसे चाय के बर्तन DreamBooth डेटासेट, का इस्तेमाल करके टोकन "मोनाडीकोस टीपॉट":

प्रॉम्प्ट: आईने के बगल में रखा हुआ मोनैडिकोस टीपॉट

पसंद के मुताबिक बनाए गए मॉडल को प्रॉम्प्ट में टोकन मिला और उसने एक टीपॉट डाला, जो उसने लोआरए वेट से समझाना सीख लिया है और इसे इमेज के बगल में स्क्रीन शेयर करें, जैसा कि प्रॉम्प्ट में बताया गया है.

Vertex AI के साथ LoRA

ज़्यादा जानकारी के लिए, पसंद के मुताबिक बनाना देखें गाइड, जो Vertex AI पर मॉडल गार्डन ताकि फ़ाउंडेशन मॉडल पर LoRA वेट लागू करके मॉडल को पसंद के मुताबिक बनाया जा सके.