पेश है LiteRT: यह, डिवाइस में मौजूद एआई के लिए Google की बेहतरीन परफ़ॉर्मेंस वाला रनटाइम है. इसे पहले TensorFlow Lite के नाम से जाना जाता था.

इस पेज का अनुवाद Cloud Translation API से किया गया है.

इमेज जनरेट करने की गाइड

MediaPipe इमेज जनरेटर टास्क की मदद से, टेक्स्ट प्रॉम्प्ट के आधार पर इमेज जनरेट की जा सकती हैं. यह टास्क, टेक्स्ट-टू-इमेज मॉडल का इस्तेमाल करता है, ताकि डिफ़्यूज़न तकनीकों का इस्तेमाल करके इमेज जनरेट की जा सकें.

यह टास्क, इनपुट के तौर पर टेक्स्ट प्रॉम्प्ट के साथ-साथ, शर्त की वैकल्पिक इमेज भी स्वीकार करता है जिसे मॉडल, बेहतर बनाने के साथ-साथ, जनरेट करने के लिए रेफ़रंस के तौर पर इस्तेमाल कर सके. ज़्यादा जानकारी के लिए टेक्स्ट-टू-इमेज जनरेट करने के लिए उपलब्ध है, तो इसके लिए ऑन-डिवाइस डिफ़्यूज़न प्लगिन देखें शर्त के साथ टेक्स्ट-टू-इमेज जेनरेशन है.

इमेज जनरेटर के दौरान मॉडल को प्रदान किए गए विशिष्ट सिद्धांतों के आधार पर भी चित्र जनरेट कर सकता है ट्रेनिंग या फिर से ट्रेनिंग मोड में हैं. अधिक जानकारी के लिए, देखें इसके साथ कस्टमाइज़ करें LoRA.

शुरू करें

इस टास्क का इस्तेमाल शुरू करने के लिए, यहां दिए गए लागू करने के दिशा-निर्देशों में से किसी एक को अपनाएं. टारगेट प्लैटफ़ॉर्म पर लागू होता है. प्लैटफ़ॉर्म के हिसाब से, इन गाइड से आपको बुनियादी चीज़ों के बारे में जानकारी मिलेगी इस टास्क को लागू करने के साथ-साथ, कोड के ऐसे उदाहरण भी शामिल करें जिनमें डिफ़ॉल्ट मॉडल और सुझाए गए कॉन्फ़िगरेशन विकल्प:

Android - कोड का उदाहरण - गाइड
LoRA की मदद से पसंद के मुताबिक बनाएं - कोड उदाहरण - Colab

टास्क की जानकारी

इस सेक्शन में सुविधाओं, इनपुट, आउटपुट, और कॉन्फ़िगरेशन के बारे में बताया गया है इस टास्क के विकल्प देखें.

सुविधाएं

इमेज जनरेटर का इस्तेमाल करके, इन चीज़ों को लागू किया जा सकता है:

टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करना - टेक्स्ट प्रॉम्प्ट की मदद से इमेज जनरेट करें.
शर्त वाली इमेज के साथ इमेज जनरेट करना - टेक्स्ट के साथ इमेज जनरेट करें प्रॉम्प्ट और एक रेफ़रंस इमेज. इमेज जनरेट करने वाला टूल, स्थिति वाली इमेज का इस्तेमाल ऐसे तरीकों से करता है ControlNet से मिलता-जुलता.
LoRA वेट के साथ इमेज जनरेट करना - खास लोगों की इमेज जनरेट करें, ऑब्जेक्ट, और स्टाइल के साथ टेक्स्ट प्रॉम्प्ट के साथ काम करता है.

टास्क के इनपुट	टास्क के आउटपुट
इमेज जनरेटर इन इनपुट को स्वीकार करता है: मैसेज भेजें बीज जनरेटिव एआई के इस्तेमाल की संख्या ज़रूरी नहीं: शर्त वाली इमेज	इमेज जनरेटर से ये नतीजे मिलते हैं: इनपुट के आधार पर जनरेट की गई इमेज. ज़रूरी नहीं: जनरेट की गई इमेज के बार-बार दिखाए जाने वाले स्नैपशॉट.

टास्क के इनपुट

टास्क के आउटपुट

इमेज जनरेटर इन इनपुट को स्वीकार करता है:

मैसेज भेजें

बीज

जनरेटिव एआई के इस्तेमाल की संख्या

ज़रूरी नहीं: शर्त वाली इमेज

इमेज जनरेटर से ये नतीजे मिलते हैं:

इनपुट के आधार पर जनरेट की गई इमेज.

ज़रूरी नहीं: जनरेट की गई इमेज के बार-बार दिखाए जाने वाले स्नैपशॉट.

कॉन्फ़िगरेशन के विकल्प

इस टास्क में कॉन्फ़िगरेशन के ये विकल्प हैं:

विकल्प का नाम	ब्यौरा	मान की सीमा
`imageGeneratorModelDirectory`	इमेज जनरेटर मॉडल डायरेक्ट्री, जिसमें मॉडल का वज़न सेव किया जाता है.	`PATH`
`loraWeightsFilePath`	LoRA वेट फ़ाइल का पाथ सेट करता है. ज़रूरी नहीं है और सिर्फ़ तब लागू होता है, जब मॉडल को LoRA की मदद से कस्टमाइज़ किया गया.	`PATH`
`errorListener`	गड़बड़ी की जानकारी देने वाला वैकल्पिक लिसनर सेट करता है.	`N/A`

यह टास्क, प्लगिन मॉडल के साथ भी काम करता है. इसकी मदद से, लोग शर्त वाली इमेज शामिल कर सकते हैं जिसे फ़ाउंडेशन मॉडल, बेहतर तरीके से बेहतर बना सकता है और रेफ़रंस के तौर पर इस्तेमाल कर सकता है इस्तेमाल किया जा सकता है. स्थिति बताने वाली इन इमेज में चेहरे का लैंडमार्क, किनारों की आउटलाइन, और ज़्यादा जानकारी का अनुमान लगाने के लिए, जिनका इस्तेमाल मॉडल ज़्यादा कॉन्टेक्स्ट और जानकारी के तौर पर करता है, ताकि इमेज जनरेट करने के लिए.

फ़ाउंडेशन मॉडल में प्लगिन मॉडल जोड़ते समय, प्लगिन को भी कॉन्फ़िगर करें के विकल्प. फ़ेस लैंडमार्क प्लगिन faceConditionOptions, कैनी एज का इस्तेमाल करता है प्लगिन edgeConditionOptions का इस्तेमाल करता है और डेप्थ प्लगिन depthConditionOptions.

कैनी एज के विकल्प

edgeConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`threshold1`	हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड.	`Float`	`100`
`threshold2`	हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड.	`Float`	`200`
`apertureSize`	Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है.	`Integer`	`3`
`l2Gradient`	क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी.	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

कॉन्फ़िगरेशन के ये विकल्प कैसे काम करते हैं, इस बारे में ज़्यादा जानने के लिए यहां जाएं कैनी एज डिटेक्टर.

चेहरे से जुड़े लैंडमार्क के विकल्प

faceConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`minFaceDetectionConfidence`	चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है.	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें.	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है.	`BaseOptions` ऑब्जेक्ट	`N/A`
`FacePluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

इन कॉन्फ़िगरेशन के विकल्पों के काम करने के तरीके के बारे में ज़्यादा जानने के लिए, फ़ेस लैंडमार्कर टास्क.

डेप्थ के विकल्प

depthConditionOptions में ये विकल्प कॉन्फ़िगर करें.

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`depthModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है.	`BaseOptions` ऑब्जेक्ट	`N/A`
`depthPluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

मॉडल

इमेज जनरेट करने वाले टूल के लिए, फ़ाउंडेशन मॉडल की ज़रूरत होती है. यह मॉडल, टेक्स्ट-टू-इमेज एआई मॉडल होता है जो नई इमेज जनरेट करने के लिए डिफ़्यूज़न तकनीकों का इस्तेमाल करती हैं. फ़ाउंडेशन मॉडल इस सेक्शन में लाइटवेट मॉडल बताए गए हैं, जिन्हें हाई-एंड पर चलने के लिए ऑप्टिमाइज़ किया गया है है.

प्लगिन मॉडल ज़रूरी नहीं हैं. ये बुनियादी मॉडल के साथ काम करते हैं. इससे उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के साथ एक और शर्त वाली इमेज देनी होगी. ज़्यादा सटीक तरीके से इमेज जनरेट करने की सुविधा मिलती है. LoRA का इस्तेमाल करके फ़ाउंडेशन मॉडल को पसंद के मुताबिक बनाना वेट एक ऐसा विकल्प है जो फ़ाउंडेशन मॉडल को किसी खास कॉन्सेप्ट के बारे में पढ़ाता है, और उन्हें जनरेट की गई इमेज में इंजेक्ट करें.

फ़ाउंडेशन मॉडल

फ़ाउंडेशन मॉडल, लेटेंट टेक्स्ट-टू-इमेज डिफ़्यूज़न मॉडल हैं. ये जनरेट किए गए टेक्स्ट प्रॉम्प्ट में से इमेज. इमेज जनरेटर के लिए, यह ज़रूरी है कि फ़ाउंडेशन मॉडल runwayml/stable-diffusion-v1-5 EMA-only मॉडल फ़ॉर्मैट से मैच करेगा. नीचे दिया गया मॉडल:

runwayml/stable-diffusion-v1-5

इमेज जनरेट करने वाले टूल के साथ, यहां दिए गए फ़ाउंडेशन मॉडल भी काम करते हैं:

फ़ाउंडेशन मॉडल डाउनलोड करने के बाद, image_generator_converter उस मॉडल को डिवाइस पर सही फ़ॉर्मैट में बदला जा सकता है. इमेज जनरेटर.

ज़रूरी डिपेंडेंसी इंस्टॉल करें:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

यह चलाकर देखेंः convert.py स्क्रिप्ट:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

प्लग इन मॉडल

इस सेक्शन में दिए गए प्लगिन मॉडल Google ने डेवलप किए हैं. इनका इस्तेमाल साथ में इस्तेमाल किया जा सकता है. प्लग इन मॉडल, इमेज जनरेटर को इनके लिए चालू करते हैं इनपुट के तौर पर, टेक्स्ट प्रॉम्प्ट के साथ किसी शर्त की इमेज को स्वीकार करें. इससे आपको जनरेट की गई इमेज के स्ट्रक्चर को कंट्रोल कर सकते हैं. प्लगिन मॉडल, ControlNet जैसी सुविधाओं को नए आर्किटेक्चर को खास तौर पर ऑन-डिवाइस डिफ़्यूज़न का इस्तेमाल करें.

प्लगिन मॉडल को बेस विकल्पों में बताया जाना चाहिए. इसके लिए, आपको इनका इस्तेमाल करना पड़ सकता है अतिरिक्त मॉडल फ़ाइलें डाउनलोड करें. इसके लिए, हर प्लगिन की अपनी अलग शर्तें होती हैं कंडिशन इमेज, जिसे इमेज जनरेटर से जनरेट किया जा सकता है.

Canny Edge का प्लगिन

Canny Edge प्लगिन ऐसी शर्त वाली इमेज को स्वीकार करता है जो तय किए गए किनारों को आउटलाइन करती है जनरेट की गई इमेज होती है. फ़ाउंडेशन मॉडल, जनरेट करता है. साथ ही, टेक्स्ट प्रॉम्प्ट के आधार पर एक नई इमेज जनरेट करता है. कॉन्टेंट बनाने इमेज जनरेटर में स्थिति की इमेज बनाने के लिए पहले से ही सुविधाएं मौजूद होती हैं और सिर्फ़ प्लगिन मॉडल डाउनलोड करना ज़रूरी है.

Canny Edge का प्लगिन डाउनलोड करें

Canny Edge प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`threshold1`	हायस्टेरेसिस प्रोसेस के लिए पहला थ्रेशोल्ड.	`Float`	`100`
`threshold2`	हायस्टेरेसिस प्रोसेस के लिए दूसरा थ्रेशोल्ड.	`Float`	`200`
`apertureSize`	Sobel ऑपरेटर के लिए एपर्चर का साइज़. सामान्य रेंज 3 से 7 के बीच है.	`Integer`	`3`
`l2Gradient`	क्या इमेज ग्रेडिएंट की मात्रा का हिसाब लगाने के लिए L2 मानदंड का इस्तेमाल किया जाता है, डिफ़ॉल्ट L1 नॉर्म के बजाय होगी.	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

फ़ेस लैंडमार्क प्लगिन

फ़ेस लैंडमार्क प्लगिन MediaPipe Face से मिले आउटपुट को स्वीकार करता है लैंडमार्क, स्थिति की इमेज के तौर पर. द फ़ेस लैंडमार्कर, एक ही चेहरे की ज़्यादा जानकारी वाला फ़ेस मेश दिखाता है. यह मैप को चेहरे के हाव-भाव और जगह की जानकारी. फ़ाउंडेशन मॉडल, फ़ेशियल मैपिंग, स्थिति इमेज से ज़ाहिर होती है और मेश के ऊपर एक नया फ़ेस जनरेट करती है.

फ़ेस लैंडमार्क प्लग इन डाउनलोड करें

चेहरा लैंडमार्क प्लग इन के लिए फ़ेस लैंडमार्कर मॉडल की भी ज़रूरत होती है बंडल पर क्लिक करें. यह मॉडल बंडल वही बंडल है जिसका इस्तेमाल फ़ेस लैंडमार्कर टास्क.

फ़ेस लैंडमार्क मॉडल बंडल डाउनलोड करें

फ़ेस लैंडमार्क प्लग इन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`minFaceDetectionConfidence`	चेहरे की पहचान के लिए कम से कम कॉन्फ़िडेंस स्कोर इतना होना चाहिए सफल माना जाता है.	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	चेहरे की मौजूदगी का कम से कम कॉन्फ़िडेंस स्कोर स्कोर करने के लिए कहें.	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है.	`BaseOptions` ऑब्जेक्ट	`N/A`
`FacePluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

डेप्थ प्लगिन

डेप्थ प्लगिन ऐसी स्थिति इमेज को स्वीकार करता है जो कोई ऑब्जेक्ट. फ़ाउंडेशन मॉडल, शर्त वाली इमेज का इस्तेमाल करके, ऑब्जेक्ट की गहराई जनरेट करता है, जिसे जनरेट करना है. साथ ही, टेक्स्ट के आधार पर एक नई इमेज जनरेट करता है प्रॉम्प्ट.

डाउनलोड डेप्थ प्लग इन

डेप्थ प्लगिन के लिए, गहराई का अनुमान लगाने वाले मॉडल की भी ज़रूरत होती है, ताकि कंडिशन बनाई जा सके इमेज.

गहराई का अनुमान लगाने वाला मॉडल डाउनलोड करें

डेप्थ प्लगिन में कॉन्फ़िगरेशन के ये विकल्प होते हैं:

विकल्प का नाम	ब्यौरा	मान की सीमा	डिफ़ॉल्ट मान
`depthModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है इस्तेमाल किया जा सकता है.	`BaseOptions` ऑब्जेक्ट	`N/A`
`depthPluginModelBaseOptions`	`BaseOptions` ऑब्जेक्ट, जो पाथ सेट करता है .	`BaseOptions` ऑब्जेक्ट	`N/A`

LoRA की मदद से मनमुताबिक बनाएं

LoRA के साथ मॉडल को पसंद के मुताबिक बनाने पर, खास कॉन्सेप्ट के आधार पर इमेज जनरेट करने के लिए इमेज जनरेटर, जो जिन्हें ट्रेनिंग के दौरान यूनीक टोकन से पहचाना जाता है. नए LoRA वज़न के साथ ट्रेनिंग के दौरान, यह मॉडल टोकन टेक्स्ट प्रॉम्प्ट में मौजूद है.

LoRA वेट बनाने के लिए, मॉडल को ट्रेनिंग देने के लिए, किसी खास ऑब्जेक्ट, व्यक्ति या स्टाइल से मिलता है. इससे मॉडल, हैं और इसे इमेज जनरेट करते समय लागू करें. अगर आपको खास लोगों और चेहरों की इमेज जनरेट करें. इस समाधान का इस्तेमाल सिर्फ़ अपने उन लोगों के चेहरे या उनके चेहरे जिन्होंने आपको ऐसा करने की अनुमति दी है.

नीचे एक कस्टमाइज़ किए गए मॉडल से मिला नतीजा दिया गया है, जिसे चाय के बर्तन DreamBooth डेटासेट, का इस्तेमाल करके टोकन "मोनाडीकोस टीपॉट":

प्रॉम्प्ट: आईने के बगल में रखा हुआ मोनैडिकोस टीपॉट

पसंद के मुताबिक बनाए गए मॉडल को प्रॉम्प्ट में टोकन मिला और उसने एक टीपॉट डाला, जो उसने लोआरए वेट से समझाना सीख लिया है और इसे इमेज के बगल में स्क्रीन शेयर करें, जैसा कि प्रॉम्प्ट में बताया गया है.

Vertex AI के साथ LoRA

ज़्यादा जानकारी के लिए, पसंद के मुताबिक बनाना देखें गाइड, जो Vertex AI पर मॉडल गार्डन ताकि फ़ाउंडेशन मॉडल पर LoRA वेट लागू करके मॉडल को पसंद के मुताबिक बनाया जा सके.