
মিডিয়াপাইপ ইমেজ জেনারেটর টাস্ক আপনাকে একটি টেক্সট প্রম্পটের উপর ভিত্তি করে ছবি তৈরি করতে দেয়। এই টাস্কটি ডিফিউশন কৌশল ব্যবহার করে ছবি তৈরি করতে একটি টেক্সট-টু-ইমেজ মডেল ব্যবহার করে।
এই কাজটি ইনপুট হিসেবে একটি টেক্সট প্রম্পট গ্রহণ করে, সাথে একটি ঐচ্ছিক কন্ডিশন ইমেজও গ্রহণ করে যা মডেলটি জেনারেশনের জন্য রেফারেন্স হিসেবে ব্যবহার করতে পারে। কন্ডিশনড টেক্সট-টু-ইমেজ জেনারেশন সম্পর্কে আরও জানতে, কন্ডিশনড টেক্সট-টু-ইমেজ জেনারেশনের জন্য অন-ডিভাইস ডিফিউশন প্লাগইন দেখুন।
ইমেজ জেনারেটর প্রশিক্ষণ বা পুনঃপ্রশিক্ষণের সময় মডেলকে প্রদত্ত নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে পারে। আরও তথ্যের জন্য, LoRA এর সাথে কাস্টমাইজ করুন দেখুন।
শুরু করুন
আপনার টার্গেট প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই কাজের মৌলিক বাস্তবায়নের মধ্য দিয়ে নিয়ে যাবে, যেখানে একটি ডিফল্ট মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলি ব্যবহার করে এমন কোড উদাহরণ রয়েছে:
- অ্যান্ড্রয়েড - কোড উদাহরণ - গাইড
- LoRA দিয়ে কাস্টমাইজ করুন - কোড উদাহরণ - Colab
টাস্কের বিবরণ
এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।
ফিচার
আপনি নিম্নলিখিতগুলি বাস্তবায়নের জন্য চিত্র জেনারেটর ব্যবহার করতে পারেন:
- টেক্সট-টু-ইমেজ জেনারেশন - টেক্সট প্রম্পট ব্যবহার করে ছবি তৈরি করুন।
- কন্ডিশন ইমেজ সহ ইমেজ জেনারেশন - একটি টেক্সট প্রম্পট এবং একটি রেফারেন্স ইমেজ সহ ইমেজ জেনারেট করুন। ইমেজ জেনারেটর কন্ডিশন ইমেজগুলি ControlNet এর মতোই ব্যবহার করে।
- LoRA ওজন ব্যবহার করে ছবি তৈরি করা - কাস্টমাইজড মডেল ওজন ব্যবহার করে টেক্সট প্রম্পট সহ নির্দিষ্ট ব্যক্তি, বস্তু এবং শৈলীর ছবি তৈরি করুন।
| টাস্ক ইনপুট | টাস্ক আউটপুট |
|---|---|
ইমেজ জেনারেটর নিম্নলিখিত ইনপুটগুলি গ্রহণ করে:
| ইমেজ জেনারেটর নিম্নলিখিত ফলাফলগুলি দেখায়:
|
কনফিগারেশনের বিকল্পগুলি
এই টাস্কে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা |
|---|---|---|
imageGeneratorModelDirectory | মডেলের ওজন সংরক্ষণকারী ইমেজ জেনারেটর মডেল ডিরেক্টরি। | PATH |
loraWeightsFilePath | LoRA ওয়েট ফাইলের পাথ সেট করে। ঐচ্ছিক এবং শুধুমাত্র তখনই প্রযোজ্য যদি মডেলটি LoRA দিয়ে কাস্টমাইজ করা হয়। | PATH |
errorListener | একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে। | N/A |
এই টাস্কটি প্লাগইন মডেলগুলিকেও সমর্থন করে, যা ব্যবহারকারীদের টাস্ক ইনপুটে কন্ডিশন ইমেজ অন্তর্ভুক্ত করতে দেয়, যা ফাউন্ডেশন মডেলটি বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। এই কন্ডিশন ইমেজগুলি ফেস ল্যান্ডমার্ক, এজ আউটলাইন এবং ডেপথ অনুমান হতে পারে, যা মডেলটি ছবি তৈরি করতে অতিরিক্ত প্রসঙ্গ এবং তথ্য হিসাবে ব্যবহার করে।
ফাউন্ডেশন মডেলে প্লাগইন মডেল যোগ করার সময়, প্লাগইন বিকল্পগুলিও কনফিগার করুন। ফেস ল্যান্ডমার্ক প্লাগইন faceConditionOptions ব্যবহার করে, ক্যানি এজ প্লাগইন edgeConditionOptions ব্যবহার করে, এবং Depth প্লাগইন depthConditionOptions ব্যবহার করে।
ক্যানি এজ বিকল্পগুলি
edgeConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
threshold1 | হিস্টেরেসিস পদ্ধতির প্রথম থ্রেশহোল্ড। | Float | 100 |
threshold2 | হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। | Float | 200 |
apertureSize | সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণত পরিসর 3-7 এর মধ্যে। | Integer | 3 |
l2Gradient | ছবির গ্রেডিয়েন্ট মান গণনা করার জন্য ডিফল্ট L1 আদর্শের পরিবর্তে L2 আদর্শ ব্যবহার করা হবে কিনা। | BOOLEAN | False |
EdgePluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।
ফেস ল্যান্ডমার্ক বিকল্পগুলি
faceConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
minFaceDetectionConfidence | মুখ সনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য ন্যূনতম আত্মবিশ্বাসের স্কোর। | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখের উপস্থিতি স্কোরের ন্যূনতম আত্মবিশ্বাস স্কোর। | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। | BaseOptions অবজেক্ট | N/A |
FacePluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্কটি দেখুন।
গভীরতার বিকল্পগুলি
নিম্নলিখিত বিকল্পগুলি depthConditionOptions এ কনফিগার করুন।
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
depthModelBaseOptions | BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। | BaseOptions অবজেক্ট | N/A |
depthPluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
মডেল
ইমেজ জেনারেটরের জন্য একটি ফাউন্ডেশন মডেল প্রয়োজন, যা একটি টেক্সট-টু-ইমেজ এআই মডেল যা নতুন ছবি তৈরি করতে ডিফিউশন কৌশল ব্যবহার করে। এই বিভাগে তালিকাভুক্ত ফাউন্ডেশন মডেলগুলি হল হালকা ওজনের মডেল যা উচ্চমানের স্মার্টফোনে চালানোর জন্য অপ্টিমাইজ করা হয়েছে।
প্লাগইন মডেলগুলি ঐচ্ছিক এবং ভিত্তি মডেলগুলির পরিপূরক, ব্যবহারকারীদের আরও নির্দিষ্ট চিত্র তৈরির জন্য একটি অতিরিক্ত শর্ত চিত্র এবং একটি পাঠ্য প্রম্পট প্রদান করতে সক্ষম করে। LoRA ওজন ব্যবহার করে ভিত্তি মডেলগুলি কাস্টমাইজ করা এমন একটি বিকল্প যা ভিত্তি মডেলকে একটি নির্দিষ্ট ধারণা, যেমন একটি বস্তু, ব্যক্তি বা শৈলী সম্পর্কে শেখায় এবং সেগুলি তৈরি করা চিত্রগুলিতে ইনজেক্ট করে।
ফাউন্ডেশন মডেল
ফাউন্ডেশন মডেলগুলি হল ল্যাটেন্ট টেক্সট-টু-ইমেজ ডিফিউশন মডেল যা একটি টেক্সট প্রম্পট থেকে ছবি তৈরি করে। ইমেজ জেনারেটরের জন্য ফাউন্ডেশন মডেলটি stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only মডেল ফর্ম্যাটের সাথে মেলে, যা নিম্নলিখিত মডেলের উপর ভিত্তি করে তৈরি করা হয়েছে:
নিম্নলিখিত ফাউন্ডেশন মডেলগুলি ইমেজ জেনারেটরের সাথেও সামঞ্জস্যপূর্ণ:
একটি ফাউন্ডেশন মডেল ডাউনলোড করার পরে, ইমেজ জেনারেটরের জন্য উপযুক্ত অন-ডিভাইস ফর্ম্যাটে মডেলটিকে রূপান্তর করতে image_generator_converter ব্যবহার করুন।
প্রয়োজনীয় নির্ভরতা ইনস্টল করুন:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
convert.py স্ক্রিপ্টটি চালান:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
প্লাগইন মডেল
এই বিভাগের প্লাগইন মডেলগুলি Google দ্বারা তৈরি এবং একটি ফাউন্ডেশন মডেলের সাথে একত্রে ব্যবহার করা আবশ্যক। প্লাগইন মডেলগুলি ইমেজ জেনারেটরকে ইনপুট হিসাবে একটি টেক্সট প্রম্পট সহ একটি কন্ডিশন ইমেজ গ্রহণ করতে সক্ষম করে, যা আপনাকে জেনারেট করা ইমেজের কাঠামো নিয়ন্ত্রণ করতে দেয়। প্লাগইন মডেলগুলি ControlNet এর মতো ক্ষমতা প্রদান করে, বিশেষ করে অন-ডিভাইস ডিফিউশনের জন্য একটি অভিনব স্থাপত্য সহ।
প্লাগইন মডেলগুলি বেস অপশনগুলিতে নির্দিষ্ট করতে হবে এবং আপনাকে অতিরিক্ত মডেল ফাইল ডাউনলোড করতে হতে পারে। প্রতিটি প্লাগইনের কন্ডিশন ইমেজের জন্য অনন্য প্রয়োজনীয়তা রয়েছে, যা ইমেজ জেনারেটর দ্বারা তৈরি করা যেতে পারে।
ক্যানি এজ প্লাগইন

ক্যানি এজ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা জেনারেট করা ছবির উদ্দেশ্যপ্রণোদিত প্রান্তগুলিকে রূপরেখা দেয়। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা উল্লিখিত প্রান্তগুলি ব্যবহার করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ছবি তৈরি করে। ইমেজ জেনারেটরে কন্ডিশন ইমেজ তৈরি করার জন্য অন্তর্নির্মিত ক্ষমতা রয়েছে এবং শুধুমাত্র প্লাগইন মডেলটি ডাউনলোড করার প্রয়োজন হয়।
ক্যানি এজ প্লাগইন ডাউনলোড করুন
ক্যানি এজ প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
threshold1 | হিস্টেরেসিস পদ্ধতির প্রথম থ্রেশহোল্ড। | Float | 100 |
threshold2 | হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। | Float | 200 |
apertureSize | সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণত পরিসর 3-7 এর মধ্যে। | Integer | 3 |
l2Gradient | ছবির গ্রেডিয়েন্ট মান গণনা করার জন্য ডিফল্ট L1 আদর্শের পরিবর্তে L2 আদর্শ ব্যবহার করা হবে কিনা। | BOOLEAN | False |
EdgePluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।
ফেস ল্যান্ডমার্ক প্লাগইন

ফেস ল্যান্ডমার্ক প্লাগইনটি মিডিয়াপাইপ ফেস ল্যান্ডমার্কারের আউটপুটকে কন্ডিশন ইমেজ হিসেবে গ্রহণ করে। ফেস ল্যান্ডমার্কার একটি একক ফেসের একটি বিস্তারিত ফেস মেশ প্রদান করে, যা মুখের বৈশিষ্ট্যের উপস্থিতি এবং অবস্থান ম্যাপ করে। ফাউন্ডেশন মডেলটি কন্ডিশন ইমেজ দ্বারা উল্লিখিত ফেসিয়াল ম্যাপিং ব্যবহার করে এবং মেশের উপর একটি নতুন ফেস তৈরি করে।
ফেস ল্যান্ডমার্ক প্লাগইন ডাউনলোড করুন
ফেস ল্যান্ডমার্ক প্লাগইনের জন্য কন্ডিশন ইমেজ তৈরি করতে ফেস ল্যান্ডমার্কার মডেল বান্ডেলও প্রয়োজন। এই মডেল বান্ডেলটি ফেস ল্যান্ডমার্কার টাস্কে ব্যবহৃত একই বান্ডেল।
ফেস ল্যান্ডমার্ক মডেল বান্ডেল ডাউনলোড করুন
ফেস ল্যান্ডমার্ক প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
minFaceDetectionConfidence | মুখ সনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য ন্যূনতম আত্মবিশ্বাসের স্কোর। | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখের উপস্থিতি স্কোরের ন্যূনতম আত্মবিশ্বাস স্কোর। | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। | BaseOptions অবজেক্ট | N/A |
FacePluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্কটি দেখুন।
গভীরতা প্লাগইন

ডেপথ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা একটি বস্তুর একরঙা গভীরতা নির্দিষ্ট করে। ফাউন্ডেশন মডেলটি কন্ডিশন ইমেজ ব্যবহার করে তৈরি করা বস্তুর আকার এবং গভীরতা অনুমান করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ইমেজ তৈরি করে।
কন্ডিশন ইমেজ তৈরি করতে ডেপথ প্লাগইনের একটি ডেপথ এস্টিমেশন মডেলেরও প্রয়োজন।
গভীরতা অনুমান মডেল ডাউনলোড করুন
Depth প্লাগইনটিতে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
| বিকল্পের নাম | বিবরণ | মূল্য পরিসীমা | ডিফল্ট মান |
|---|---|---|---|
depthModelBaseOptions | BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। | BaseOptions অবজেক্ট | N/A |
depthPluginModelBaseOptions | প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। | BaseOptions অবজেক্ট | N/A |
LoRA এর সাথে কাস্টমাইজেশন
LoRA দিয়ে একটি মডেল কাস্টমাইজ করার মাধ্যমে ইমেজ জেনারেটর নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে সক্ষম হতে পারে, যা প্রশিক্ষণের সময় অনন্য টোকেন দ্বারা চিহ্নিত করা হয়। প্রশিক্ষণের পরে নতুন LoRA ওজনের সাহায্যে, টেক্সট প্রম্পটে টোকেনটি নির্দিষ্ট করা থাকলে মডেলটি নতুন ধারণার ছবি তৈরি করতে সক্ষম হয়।
LoRA ওজন তৈরির জন্য একটি নির্দিষ্ট বস্তু, ব্যক্তি বা শৈলীর ছবির উপর ভিত্তি মডেল প্রশিক্ষণের প্রয়োজন হয়, যা মডেলটিকে নতুন ধারণাটি চিনতে এবং ছবি তৈরি করার সময় এটি প্রয়োগ করতে সক্ষম করে। যদি আপনি নির্দিষ্ট ব্যক্তি এবং মুখের ছবি তৈরি করার জন্য LoRa ওজন তৈরি করেন, তাহলে শুধুমাত্র আপনার মুখের উপর বা যারা আপনাকে এটি করার অনুমতি দিয়েছেন তাদের মুখে এই সমাধানটি ব্যবহার করুন।
"monadikos teapot" টোকেন ব্যবহার করে DreamBooth ডেটাসেট থেকে চা-পাতার ছবির উপর প্রশিক্ষিত একটি কাস্টমাইজড মডেলের আউটপুট নিচে দেওয়া হল:

প্রম্পট : আয়নার পাশে একটি মোনাডিকোস চায়ের পাত্র
কাস্টমাইজড মডেলটি প্রম্পটে টোকেনটি পেয়েছিল এবং LoRA ওজন থেকে চিত্রিত করতে শিখেছে এমন একটি চায়ের পাত্র ইনজেক্ট করেছিল এবং প্রম্পটে অনুরোধ অনুসারে একটি আয়নার পাশে ছবিটি স্থাপন করেছিল।
আরও তথ্যের জন্য, কাস্টমাইজেশন গাইডটি দেখুন, যা ভার্টেক্স এআই-তে মডেল গার্ডেন ব্যবহার করে একটি ফাউন্ডেশন মডেলে LoRA ওজন প্রয়োগ করে একটি মডেল কাস্টমাইজ করে।