ইমেজ জেনারেশন গাইড

ছবি জেনারেটরের কাজ

মিডিয়াপাইপ ইমেজ জেনারেটর টাস্ক আপনাকে একটি টেক্সট প্রম্পটের উপর ভিত্তি করে ছবি তৈরি করতে দেয়। এই টাস্কটি ডিফিউশন কৌশল ব্যবহার করে ছবি তৈরি করতে একটি টেক্সট-টু-ইমেজ মডেল ব্যবহার করে।

এই কাজটি ইনপুট হিসেবে একটি টেক্সট প্রম্পট গ্রহণ করে, সাথে একটি ঐচ্ছিক কন্ডিশন ইমেজও গ্রহণ করে যা মডেলটি জেনারেশনের জন্য রেফারেন্স হিসেবে ব্যবহার করতে পারে। কন্ডিশনড টেক্সট-টু-ইমেজ জেনারেশন সম্পর্কে আরও জানতে, কন্ডিশনড টেক্সট-টু-ইমেজ জেনারেশনের জন্য অন-ডিভাইস ডিফিউশন প্লাগইন দেখুন।

ইমেজ জেনারেটর প্রশিক্ষণ বা পুনঃপ্রশিক্ষণের সময় মডেলকে প্রদত্ত নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে পারে। আরও তথ্যের জন্য, LoRA এর সাথে কাস্টমাইজ করুন দেখুন।

শুরু করুন

আপনার টার্গেট প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই কাজের মৌলিক বাস্তবায়নের মধ্য দিয়ে নিয়ে যাবে, যেখানে একটি ডিফল্ট মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলি ব্যবহার করে এমন কোড উদাহরণ রয়েছে:

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

ফিচার

আপনি নিম্নলিখিতগুলি বাস্তবায়নের জন্য চিত্র জেনারেটর ব্যবহার করতে পারেন:

  1. টেক্সট-টু-ইমেজ জেনারেশন - টেক্সট প্রম্পট ব্যবহার করে ছবি তৈরি করুন।
  2. কন্ডিশন ইমেজ সহ ইমেজ জেনারেশন - একটি টেক্সট প্রম্পট এবং একটি রেফারেন্স ইমেজ সহ ইমেজ জেনারেট করুন। ইমেজ জেনারেটর কন্ডিশন ইমেজগুলি ControlNet এর মতোই ব্যবহার করে।
  3. LoRA ওজন ব্যবহার করে ছবি তৈরি করা - কাস্টমাইজড মডেল ওজন ব্যবহার করে টেক্সট প্রম্পট সহ নির্দিষ্ট ব্যক্তি, বস্তু এবং শৈলীর ছবি তৈরি করুন।
টাস্ক ইনপুট টাস্ক আউটপুট
ইমেজ জেনারেটর নিম্নলিখিত ইনপুটগুলি গ্রহণ করে:
  • টেক্সট প্রম্পট
  • বীজ
  • উৎপাদক পুনরাবৃত্তির সংখ্যা
  • ঐচ্ছিক: অবস্থার ছবি
ইমেজ জেনারেটর নিম্নলিখিত ফলাফলগুলি দেখায়:
  • ইনপুটগুলির উপর ভিত্তি করে ছবি তৈরি করা হয়েছে।
  • ঐচ্ছিক: তৈরি করা ছবির পুনরাবৃত্তিমূলক স্ন্যাপশট।

কনফিগারেশনের বিকল্পগুলি

এই টাস্কে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বিবরণ মূল্য পরিসীমা
imageGeneratorModelDirectory মডেলের ওজন সংরক্ষণকারী ইমেজ জেনারেটর মডেল ডিরেক্টরি। PATH
loraWeightsFilePath LoRA ওয়েট ফাইলের পাথ সেট করে। ঐচ্ছিক এবং শুধুমাত্র তখনই প্রযোজ্য যদি মডেলটি LoRA দিয়ে কাস্টমাইজ করা হয়। PATH
errorListener একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে। N/A

এই টাস্কটি প্লাগইন মডেলগুলিকেও সমর্থন করে, যা ব্যবহারকারীদের টাস্ক ইনপুটে কন্ডিশন ইমেজ অন্তর্ভুক্ত করতে দেয়, যা ফাউন্ডেশন মডেলটি বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। এই কন্ডিশন ইমেজগুলি ফেস ল্যান্ডমার্ক, এজ আউটলাইন এবং ডেপথ অনুমান হতে পারে, যা মডেলটি ছবি তৈরি করতে অতিরিক্ত প্রসঙ্গ এবং তথ্য হিসাবে ব্যবহার করে।

ফাউন্ডেশন মডেলে প্লাগইন মডেল যোগ করার সময়, প্লাগইন বিকল্পগুলিও কনফিগার করুন। ফেস ল্যান্ডমার্ক প্লাগইন faceConditionOptions ব্যবহার করে, ক্যানি এজ প্লাগইন edgeConditionOptions ব্যবহার করে, এবং Depth প্লাগইন depthConditionOptions ব্যবহার করে।

ক্যানি এজ বিকল্পগুলি

edgeConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
threshold1 হিস্টেরেসিস পদ্ধতির প্রথম থ্রেশহোল্ড। Float 100
threshold2 হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। Float 200
apertureSize সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণত পরিসর 3-7 এর মধ্যে। Integer 3
l2Gradient ছবির গ্রেডিয়েন্ট মান গণনা করার জন্য ডিফল্ট L1 আদর্শের পরিবর্তে L2 আদর্শ ব্যবহার করা হবে কিনা। BOOLEAN False
EdgePluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।

ফেস ল্যান্ডমার্ক বিকল্পগুলি

faceConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
minFaceDetectionConfidence মুখ সনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য ন্যূনতম আত্মবিশ্বাসের স্কোর। Float [0.0,1.0] 0.5
minFacePresenceConfidence মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখের উপস্থিতি স্কোরের ন্যূনতম আত্মবিশ্বাস স্কোর। Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। BaseOptions অবজেক্ট N/A
FacePluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্কটি দেখুন।

গভীরতার বিকল্পগুলি

নিম্নলিখিত বিকল্পগুলি depthConditionOptions এ কনফিগার করুন।

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
depthModelBaseOptions BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। BaseOptions অবজেক্ট N/A
depthPluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

মডেল

ইমেজ জেনারেটরের জন্য একটি ফাউন্ডেশন মডেল প্রয়োজন, যা একটি টেক্সট-টু-ইমেজ এআই মডেল যা নতুন ছবি তৈরি করতে ডিফিউশন কৌশল ব্যবহার করে। এই বিভাগে তালিকাভুক্ত ফাউন্ডেশন মডেলগুলি হল হালকা ওজনের মডেল যা উচ্চমানের স্মার্টফোনে চালানোর জন্য অপ্টিমাইজ করা হয়েছে।

প্লাগইন মডেলগুলি ঐচ্ছিক এবং ভিত্তি মডেলগুলির পরিপূরক, ব্যবহারকারীদের আরও নির্দিষ্ট চিত্র তৈরির জন্য একটি অতিরিক্ত শর্ত চিত্র এবং একটি পাঠ্য প্রম্পট প্রদান করতে সক্ষম করে। LoRA ওজন ব্যবহার করে ভিত্তি মডেলগুলি কাস্টমাইজ করা এমন একটি বিকল্প যা ভিত্তি মডেলকে একটি নির্দিষ্ট ধারণা, যেমন একটি বস্তু, ব্যক্তি বা শৈলী সম্পর্কে শেখায় এবং সেগুলি তৈরি করা চিত্রগুলিতে ইনজেক্ট করে।

ফাউন্ডেশন মডেল

ফাউন্ডেশন মডেলগুলি হল ল্যাটেন্ট টেক্সট-টু-ইমেজ ডিফিউশন মডেল যা একটি টেক্সট প্রম্পট থেকে ছবি তৈরি করে। ইমেজ জেনারেটরের জন্য ফাউন্ডেশন মডেলটি stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only মডেল ফর্ম্যাটের সাথে মেলে, যা নিম্নলিখিত মডেলের উপর ভিত্তি করে তৈরি করা হয়েছে:

নিম্নলিখিত ফাউন্ডেশন মডেলগুলি ইমেজ জেনারেটরের সাথেও সামঞ্জস্যপূর্ণ:

একটি ফাউন্ডেশন মডেল ডাউনলোড করার পরে, ইমেজ জেনারেটরের জন্য উপযুক্ত অন-ডিভাইস ফর্ম্যাটে মডেলটিকে রূপান্তর করতে image_generator_converter ব্যবহার করুন।

প্রয়োজনীয় নির্ভরতা ইনস্টল করুন:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

convert.py স্ক্রিপ্টটি চালান:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

প্লাগইন মডেল

এই বিভাগের প্লাগইন মডেলগুলি Google দ্বারা তৈরি এবং একটি ফাউন্ডেশন মডেলের সাথে একত্রে ব্যবহার করা আবশ্যক। প্লাগইন মডেলগুলি ইমেজ জেনারেটরকে ইনপুট হিসাবে একটি টেক্সট প্রম্পট সহ একটি কন্ডিশন ইমেজ গ্রহণ করতে সক্ষম করে, যা আপনাকে জেনারেট করা ইমেজের কাঠামো নিয়ন্ত্রণ করতে দেয়। প্লাগইন মডেলগুলি ControlNet এর মতো ক্ষমতা প্রদান করে, বিশেষ করে অন-ডিভাইস ডিফিউশনের জন্য একটি অভিনব স্থাপত্য সহ।

প্লাগইন মডেলগুলি বেস অপশনগুলিতে নির্দিষ্ট করতে হবে এবং আপনাকে অতিরিক্ত মডেল ফাইল ডাউনলোড করতে হতে পারে। প্রতিটি প্লাগইনের কন্ডিশন ইমেজের জন্য অনন্য প্রয়োজনীয়তা রয়েছে, যা ইমেজ জেনারেটর দ্বারা তৈরি করা যেতে পারে।

ক্যানি এজ প্লাগইন

দুটি জেনারেট করা ছবির উদাহরণ আউটপুট যা একটি প্রদত্ত অবস্থা চিত্র ব্যবহার করে যার মধ্যে ইটের একটি শক্তিশালী রূপরেখা এবং প্রম্পট রয়েছে।

ক্যানি এজ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা জেনারেট করা ছবির উদ্দেশ্যপ্রণোদিত প্রান্তগুলিকে রূপরেখা দেয়। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা উল্লিখিত প্রান্তগুলি ব্যবহার করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ছবি তৈরি করে। ইমেজ জেনারেটরে কন্ডিশন ইমেজ তৈরি করার জন্য অন্তর্নির্মিত ক্ষমতা রয়েছে এবং শুধুমাত্র প্লাগইন মডেলটি ডাউনলোড করার প্রয়োজন হয়।

ক্যানি এজ প্লাগইন ডাউনলোড করুন

ক্যানি এজ প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
threshold1 হিস্টেরেসিস পদ্ধতির প্রথম থ্রেশহোল্ড। Float 100
threshold2 হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। Float 200
apertureSize সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণত পরিসর 3-7 এর মধ্যে। Integer 3
l2Gradient ছবির গ্রেডিয়েন্ট মান গণনা করার জন্য ডিফল্ট L1 আদর্শের পরিবর্তে L2 আদর্শ ব্যবহার করা হবে কিনা। BOOLEAN False
EdgePluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।

ফেস ল্যান্ডমার্ক প্লাগইন

দুটি জেনারেট করা ছবির উদাহরণ আউটপুট যেখানে একটি স্কেচ করা মুখের একটি প্রদত্ত কন্ডিশন ইমেজ এবং দুটি ভিন্ন প্রম্পট ব্যবহার করা হয়েছে যা দেখায় যে একই কন্ডিশন ইমেজ ব্যবহার করে খুব ভিন্ন চেহারার ছবি তৈরি করা যেতে পারে।

ফেস ল্যান্ডমার্ক প্লাগইনটি মিডিয়াপাইপ ফেস ল্যান্ডমার্কারের আউটপুটকে কন্ডিশন ইমেজ হিসেবে গ্রহণ করে। ফেস ল্যান্ডমার্কার একটি একক ফেসের একটি বিস্তারিত ফেস মেশ প্রদান করে, যা মুখের বৈশিষ্ট্যের উপস্থিতি এবং অবস্থান ম্যাপ করে। ফাউন্ডেশন মডেলটি কন্ডিশন ইমেজ দ্বারা উল্লিখিত ফেসিয়াল ম্যাপিং ব্যবহার করে এবং মেশের উপর একটি নতুন ফেস তৈরি করে।

ফেস ল্যান্ডমার্ক প্লাগইন ডাউনলোড করুন

ফেস ল্যান্ডমার্ক প্লাগইনের জন্য কন্ডিশন ইমেজ তৈরি করতে ফেস ল্যান্ডমার্কার মডেল বান্ডেলও প্রয়োজন। এই মডেল বান্ডেলটি ফেস ল্যান্ডমার্কার টাস্কে ব্যবহৃত একই বান্ডেল।

ফেস ল্যান্ডমার্ক মডেল বান্ডেল ডাউনলোড করুন

ফেস ল্যান্ডমার্ক প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
minFaceDetectionConfidence মুখ সনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য ন্যূনতম আত্মবিশ্বাসের স্কোর। Float [0.0,1.0] 0.5
minFacePresenceConfidence মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখের উপস্থিতি স্কোরের ন্যূনতম আত্মবিশ্বাস স্কোর। Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। BaseOptions অবজেক্ট N/A
FacePluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্কটি দেখুন।

গভীরতা প্লাগইন

দুটি জেনারেট করা ছবির উদাহরণ আউটপুট যা একটি প্রদত্ত অবস্থা চিত্র ব্যবহার করে যা একটি গাড়ির সাধারণ আকৃতি দেখায় যে ডেপথ প্লাগইন এমন চিত্র তৈরি করতে পারে যা একটি সমতল ছবিতে গভীরতা যোগ করে।

ডেপথ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা একটি বস্তুর একরঙা গভীরতা নির্দিষ্ট করে। ফাউন্ডেশন মডেলটি কন্ডিশন ইমেজ ব্যবহার করে তৈরি করা বস্তুর আকার এবং গভীরতা অনুমান করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ইমেজ তৈরি করে।

ডেপথ প্লাগইন ডাউনলোড করুন

কন্ডিশন ইমেজ তৈরি করতে ডেপথ প্লাগইনের একটি ডেপথ এস্টিমেশন মডেলেরও প্রয়োজন।

গভীরতা অনুমান মডেল ডাউনলোড করুন

Depth প্লাগইনটিতে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বিবরণ মূল্য পরিসীমা ডিফল্ট মান
depthModelBaseOptions BaseOptions অবজেক্ট যা কন্ডিশন ইমেজ তৈরি করে এমন মডেলের জন্য পথ নির্ধারণ করে। BaseOptions অবজেক্ট N/A
depthPluginModelBaseOptions প্লাগইন মডেলের জন্য পথ নির্ধারণকারী BaseOptions অবজেক্ট। BaseOptions অবজেক্ট N/A

LoRA এর সাথে কাস্টমাইজেশন

LoRA দিয়ে একটি মডেল কাস্টমাইজ করার মাধ্যমে ইমেজ জেনারেটর নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে সক্ষম হতে পারে, যা প্রশিক্ষণের সময় অনন্য টোকেন দ্বারা চিহ্নিত করা হয়। প্রশিক্ষণের পরে নতুন LoRA ওজনের সাহায্যে, টেক্সট প্রম্পটে টোকেনটি নির্দিষ্ট করা থাকলে মডেলটি নতুন ধারণার ছবি তৈরি করতে সক্ষম হয়।

LoRA ওজন তৈরির জন্য একটি নির্দিষ্ট বস্তু, ব্যক্তি বা শৈলীর ছবির উপর ভিত্তি মডেল প্রশিক্ষণের প্রয়োজন হয়, যা মডেলটিকে নতুন ধারণাটি চিনতে এবং ছবি তৈরি করার সময় এটি প্রয়োগ করতে সক্ষম করে। যদি আপনি নির্দিষ্ট ব্যক্তি এবং মুখের ছবি তৈরি করার জন্য LoRa ওজন তৈরি করেন, তাহলে শুধুমাত্র আপনার মুখের উপর বা যারা আপনাকে এটি করার অনুমতি দিয়েছেন তাদের মুখে এই সমাধানটি ব্যবহার করুন।

"monadikos teapot" টোকেন ব্যবহার করে DreamBooth ডেটাসেট থেকে চা-পাতার ছবির উপর প্রশিক্ষিত একটি কাস্টমাইজড মডেলের আউটপুট নিচে দেওয়া হল:

দেয়ালে লাগানো আয়নার পাশে টেবিলের উপর বসে থাকা একটি চায়ের পাত্রের একটি বাস্তবসম্মত ছবি তৈরি করা হয়েছে।

প্রম্পট : আয়নার পাশে একটি মোনাডিকোস চায়ের পাত্র

কাস্টমাইজড মডেলটি প্রম্পটে টোকেনটি পেয়েছিল এবং LoRA ওজন থেকে চিত্রিত করতে শিখেছে এমন একটি চায়ের পাত্র ইনজেক্ট করেছিল এবং প্রম্পটে অনুরোধ অনুসারে একটি আয়নার পাশে ছবিটি স্থাপন করেছিল।

ভার্টেক্স এআই সহ LoRA

আরও তথ্যের জন্য, কাস্টমাইজেশন গাইডটি দেখুন, যা ভার্টেক্স এআই-তে মডেল গার্ডেন ব্যবহার করে একটি ফাউন্ডেশন মডেলে LoRA ওজন প্রয়োগ করে একটি মডেল কাস্টমাইজ করে।