ইমেজ জেনারেশন গাইড

MediaPipe ইমেজ জেনারেটর টাস্ক আপনাকে একটি টেক্সট প্রম্পটের উপর ভিত্তি করে ছবি তৈরি করতে দেয়। এই টাস্কটি ডিফিউশন কৌশল ব্যবহার করে ইমেজ তৈরি করতে টেক্সট-টু-ইমেজ মডেল ব্যবহার করে।

টাস্কটি ইনপুট হিসাবে একটি পাঠ্য প্রম্পট গ্রহণ করে, একটি ঐচ্ছিক অবস্থার চিত্র সহ যা মডেলটি বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। শর্তযুক্ত টেক্সট-টু-ইমেজ জেনারেশন সম্পর্কে আরও জানতে, কন্ডিশন্ড টেক্সট-টু-ইমেজ জেনারেশনের জন্য অন-ডিভাইস ডিফিউশন প্লাগইনগুলি দেখুন।

ইমেজ জেনারেটর প্রশিক্ষণ বা পুনঃপ্রশিক্ষণের সময় মডেলকে দেওয়া নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে পারে। আরও তথ্যের জন্য, LoRA এর সাথে কাস্টমাইজ দেখুন।

শুরু করুন

আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি মৌলিক বাস্তবায়নের মধ্য দিয়ে নিয়ে যায়, কোড উদাহরণ সহ যা একটি ডিফল্ট মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলি ব্যবহার করে:

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

আপনি নিম্নলিখিত বাস্তবায়ন করতে ইমেজ জেনারেটর ব্যবহার করতে পারেন:

  1. টেক্সট-টু-ইমেজ জেনারেশন - টেক্সট প্রম্পট দিয়ে ইমেজ তৈরি করুন।
  2. কন্ডিশন ইমেজ সহ ইমেজ জেনারেশন - একটি টেক্সট প্রম্পট এবং একটি রেফারেন্স ইমেজ সহ ইমেজ তৈরি করুন। ইমেজ জেনারেটর কন্ডিশন ইমেজ ব্যবহার করে কন্ট্রোলনেটের মতো।
  3. LoRA ওজন সহ ইমেজ জেনারেশন - কাস্টমাইজড মডেল ওজন ব্যবহার করে একটি টেক্সট প্রম্পট সহ নির্দিষ্ট ব্যক্তি, বস্তু এবং শৈলীর ছবি তৈরি করুন।
টাস্ক ইনপুট টাস্ক আউটপুট
ইমেজ জেনারেটর নিম্নলিখিত ইনপুট গ্রহণ করে:
  • টেক্সট প্রম্পট
  • বীজ
  • উৎপন্ন পুনরাবৃত্তির সংখ্যা
  • ঐচ্ছিক: শর্ত চিত্র
ইমেজ জেনারেটর নিম্নলিখিত ফলাফল আউটপুট:
  • ইনপুট উপর ভিত্তি করে ইমেজ তৈরি.
  • ঐচ্ছিক: জেনারেট করা ছবির পুনরাবৃত্তিমূলক স্ন্যাপশট।

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা
imageGeneratorModelDirectory ইমেজ জেনারেটর মডেল ডিরেক্টরি মডেলের ওজন সংরক্ষণ করে। PATH
loraWeightsFilePath LoRA ওজন ফাইলের পথ সেট করে। ঐচ্ছিক এবং শুধুমাত্র প্রযোজ্য যদি মডেলটি LoRA দিয়ে কাস্টমাইজ করা হয়। PATH
errorListener একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে। N/A

টাস্কটি প্লাগইন মডেলগুলিকেও সমর্থন করে, যা ব্যবহারকারীদের টাস্ক ইনপুটে কন্ডিশন ইমেজ অন্তর্ভুক্ত করতে দেয়, যা ফাউন্ডেশন মডেল বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। এই অবস্থার চিত্রগুলি মুখের ল্যান্ডমার্ক, প্রান্তের রূপরেখা এবং গভীরতার অনুমান হতে পারে, যা মডেলটি ছবি তৈরি করতে অতিরিক্ত প্রসঙ্গ এবং তথ্য হিসাবে ব্যবহার করে।

ফাউন্ডেশন মডেলে একটি প্লাগইন মডেল যোগ করার সময়, প্লাগইন বিকল্পগুলিও কনফিগার করুন। ফেস ল্যান্ডমার্ক প্লাগইন faceConditionOptions ব্যবহার করে, Canny edge প্লাগইন edgeConditionOptions ব্যবহার করে, এবং Depth প্লাগইন depthConditionOptions ব্যবহার করে।

ক্যানি প্রান্ত বিকল্প

edgeConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
threshold1 হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড। Float 100
threshold2 হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। Float 200
apertureSize সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে। Integer 3
l2Gradient ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা। BOOLEAN False
EdgePluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।

ল্যান্ডমার্ক বিকল্পের মুখোমুখি

faceConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
minFaceDetectionConfidence মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷ Float [0.0,1.0] 0.5
minFacePresenceConfidence মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর। Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। BaseOptions অবজেক্ট N/A
FacePluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্ক দেখুন।

গভীরতার বিকল্প

depthConditionOptions এ নিম্নলিখিত অপশনগুলি কনফিগার করুন।

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
depthModelBaseOptions BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। BaseOptions অবজেক্ট N/A
depthPluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

মডেল

ইমেজ জেনারেটরের জন্য একটি ফাউন্ডেশন মডেল প্রয়োজন, যা একটি টেক্সট-টু-ইমেজ এআই মডেল যা নতুন ছবি তৈরি করতে ডিফিউশন কৌশল ব্যবহার করে। এই বিভাগে তালিকাভুক্ত ফাউন্ডেশন মডেলগুলি হাই-এন্ড স্মার্টফোনে চালানোর জন্য অপ্টিমাইজ করা হালকা ওজনের মডেল।

প্লাগইন মডেলগুলি ঐচ্ছিক এবং মৌলিক মডেলগুলির পরিপূরক, ব্যবহারকারীদের আরও নির্দিষ্ট চিত্র তৈরির জন্য একটি পাঠ্য প্রম্পটের সাথে একটি অতিরিক্ত শর্ত চিত্র প্রদান করতে সক্ষম করে। LoRA ওজন ব্যবহার করে ফাউন্ডেশন মডেলগুলি কাস্টমাইজ করা একটি বিকল্প যা একটি নির্দিষ্ট ধারণা, যেমন একটি বস্তু, ব্যক্তি বা শৈলী সম্পর্কে ফাউন্ডেশন মডেল শেখায় এবং সেগুলিকে জেনারেট করা ছবিতে ইনজেক্ট করে৷

ফাউন্ডেশন মডেল

ফাউন্ডেশন মডেল হল সুপ্ত টেক্সট-টু-ইমেজ ডিফিউশন মডেল যা টেক্সট প্রম্পট থেকে ছবি তৈরি করে। ইমেজ জেনারেটরের প্রয়োজন যে ফাউন্ডেশন মডেলটি নিম্নলিখিত মডেলের উপর ভিত্তি করে runwayml/stable-diffusion-v1-5 EMA-only মডেল ফর্ম্যাটের সাথে মেলে:

নিম্নলিখিত ফাউন্ডেশন মডেলগুলি ইমেজ জেনারেটরের সাথেও সামঞ্জস্যপূর্ণ:

একটি ফাউন্ডেশন মডেল ডাউনলোড করার পরে, ইমেজ জেনারেটরের জন্য উপযুক্ত অন-ডিভাইস বিন্যাসে মডেলটিকে রূপান্তর করতে image_generator_converter ব্যবহার করুন।

প্রয়োজনীয় নির্ভরতা ইনস্টল করুন:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

convert.py স্ক্রিপ্ট চালান:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

প্লাগইন মডেল

এই বিভাগে প্লাগইন মডেলগুলি Google দ্বারা বিকাশিত এবং একটি ভিত্তি মডেলের সাথে একত্রে ব্যবহার করা আবশ্যক৷ প্লাগইন মডেলগুলি ইমেজ জেনারেটরকে ইনপুট হিসাবে একটি পাঠ্য প্রম্পট সহ একটি শর্ত চিত্র গ্রহণ করতে সক্ষম করে, যা আপনাকে জেনারেট করা চিত্রগুলির গঠন নিয়ন্ত্রণ করতে দেয়। প্লাগইন মডেলগুলি কন্ট্রোলনেটের মতো ক্ষমতা প্রদান করে, বিশেষত অন-ডিভাইস ডিফিউশনের জন্য একটি অভিনব আর্কিটেকচার সহ।

প্লাগইন মডেলগুলি অবশ্যই বেস বিকল্পগুলিতে নির্দিষ্ট করা উচিত এবং আপনাকে অতিরিক্ত মডেল ফাইলগুলি ডাউনলোড করতে হতে পারে৷ প্রতিটি প্লাগইনের অবস্থা চিত্রের জন্য অনন্য প্রয়োজনীয়তা রয়েছে, যা চিত্র জেনারেটর দ্বারা তৈরি করা যেতে পারে।

ক্যানি এজ প্লাগইন

ক্যানি এজ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা জেনারেট করা ইমেজের উদ্দিষ্ট প্রান্তগুলিকে রূপরেখা দেয়। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা নিহিত প্রান্ত ব্যবহার করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ইমেজ তৈরি করে। ইমেজ জেনারেটরে কন্ডিশন ইমেজ তৈরি করার জন্য অন্তর্নির্মিত ক্ষমতা রয়েছে এবং শুধুমাত্র প্লাগইন মডেল ডাউনলোড করতে হবে।

ক্যানি এজ প্লাগইন ডাউনলোড করুন

ক্যানি এজ প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
threshold1 হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড। Float 100
threshold2 হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। Float 200
apertureSize সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে। Integer 3
l2Gradient ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা। BOOLEAN False
EdgePluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।

ফেস ল্যান্ডমার্ক প্লাগইন

ফেস ল্যান্ডমার্ক প্লাগইন মিডিয়াপাইপ ফেস ল্যান্ডমার্কার থেকে কন্ডিশন ইমেজ হিসাবে আউটপুট গ্রহণ করে। ফেস ল্যান্ডমার্কার একটি একক মুখের একটি বিস্তারিত ফেস মেশ প্রদান করে, যা মুখের বৈশিষ্ট্যগুলির উপস্থিতি এবং অবস্থান ম্যাপ করে। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা উহ্য ফেসিয়াল ম্যাপিং ব্যবহার করে এবং জালের উপরে একটি নতুন মুখ তৈরি করে।

ফেস ল্যান্ডমার্ক প্লাগইন ডাউনলোড করুন

কন্ডিশন ইমেজ তৈরি করতে ফেস ল্যান্ডমার্ক প্লাগইনটিরও ফেস ল্যান্ডমার্কার মডেল বান্ডেল প্রয়োজন। এই মডেল বান্ডিলটি একই বান্ডিল যা ফেস ল্যান্ডমার্কার টাস্ক দ্বারা ব্যবহৃত হয়।

ফেস ল্যান্ডমার্ক মডেল বান্ডেল ডাউনলোড করুন

ফেস ল্যান্ডমার্ক প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
minFaceDetectionConfidence মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷ Float [0.0,1.0] 0.5
minFacePresenceConfidence মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর। Float [0.0,1.0] 0.5
faceModelBaseOptions BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। BaseOptions অবজেক্ট N/A
FacePluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্ক দেখুন।

গভীরতার প্লাগইন

Depth প্লাগইন একটি শর্ত ইমেজ গ্রহণ করে যা একটি বস্তুর মনোকুলার গভীরতা নির্দিষ্ট করে। ফাউন্ডেশন মডেলটি তৈরি করা বস্তুর আকার এবং গভীরতা অনুমান করতে শর্ত চিত্র ব্যবহার করে এবং পাঠ্য প্রম্পটের উপর ভিত্তি করে একটি নতুন চিত্র তৈরি করে।

ডেপথ প্লাগইন ডাউনলোড করুন

কন্ডিশন ইমেজ তৈরি করতে Depth প্লাগইনের একটি Depth estimation মডেলেরও প্রয়োজন।

গভীরতা অনুমান মডেল ডাউনলোড করুন

ডেপথ প্লাগইনে নিম্নলিখিত কনফিগারেশন অপশন রয়েছে:

বিকল্পের নাম বর্ণনা মান পরিসীমা ডিফল্ট মান
depthModelBaseOptions BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। BaseOptions অবজেক্ট N/A
depthPluginModelBaseOptions BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। BaseOptions অবজেক্ট N/A

LoRA সঙ্গে কাস্টমাইজেশন

LoRA এর সাথে একটি মডেল কাস্টমাইজ করা ইমেজ জেনারেটরকে নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে সক্ষম করতে পারে, যা প্রশিক্ষণের সময় অনন্য টোকেন দ্বারা চিহ্নিত করা হয়। প্রশিক্ষণের পরে নতুন LoRA ওজনের সাথে, টেক্সট প্রম্পটে টোকেন নির্দিষ্ট করা হলে মডেলটি নতুন ধারণার ছবি তৈরি করতে সক্ষম হয়।

LoRA ওজন তৈরি করার জন্য একটি নির্দিষ্ট বস্তু, ব্যক্তি বা শৈলীর চিত্রগুলির উপর একটি ভিত্তি মডেল প্রশিক্ষণের প্রয়োজন, যা মডেলটিকে নতুন ধারণা সনাক্ত করতে এবং চিত্র তৈরি করার সময় এটি প্রয়োগ করতে সক্ষম করে। আপনি যদি নির্দিষ্ট ব্যক্তি এবং মুখের ছবি তৈরি করার জন্য LoRa ওজন তৈরি করেন, তবে শুধুমাত্র আপনার মুখে বা এমন লোকদের মুখের উপর এই সমাধানটি ব্যবহার করুন যারা আপনাকে এটি করার অনুমতি দিয়েছে।

নীচে টোকেন "monadikos teapot" ব্যবহার করে, DreamBooth ডেটাসেট থেকে চা-পাতার চিত্রের উপর প্রশিক্ষিত একটি কাস্টমাইজড মডেল থেকে আউটপুট দেওয়া হল:

প্রম্পট : একটি আয়নার পাশে একটি মোনাডিকোস টিপট

কাস্টমাইজড মডেলটি প্রম্পটে টোকেনটি পেয়েছে এবং একটি চাপানিটি ইনজেকশন করেছে যা এটি LoRA ওজন থেকে চিত্রিত করতে শিখেছে এবং প্রম্পটে অনুরোধ অনুযায়ী এটি একটি আয়নার পাশে ছবিটি স্থাপন করেছে।

Vertex AI সহ LoRA

আরও তথ্যের জন্য, কাস্টমাইজেশন গাইড দেখুন, যা একটি ফাউন্ডেশন মডেলে LoRA ওজন প্রয়োগ করে একটি মডেল কাস্টমাইজ করতে Vertex AI-তে মডেল গার্ডেন ব্যবহার করে।