MediaPipe ইমেজ জেনারেটর টাস্ক আপনাকে একটি টেক্সট প্রম্পটের উপর ভিত্তি করে ছবি তৈরি করতে দেয়। এই টাস্কটি ডিফিউশন কৌশল ব্যবহার করে ইমেজ তৈরি করতে টেক্সট-টু-ইমেজ মডেল ব্যবহার করে।
টাস্কটি ইনপুট হিসাবে একটি পাঠ্য প্রম্পট গ্রহণ করে, একটি ঐচ্ছিক অবস্থার চিত্র সহ যা মডেলটি বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। শর্তযুক্ত টেক্সট-টু-ইমেজ জেনারেশন সম্পর্কে আরও জানতে, কন্ডিশন্ড টেক্সট-টু-ইমেজ জেনারেশনের জন্য অন-ডিভাইস ডিফিউশন প্লাগইনগুলি দেখুন।
ইমেজ জেনারেটর প্রশিক্ষণ বা পুনঃপ্রশিক্ষণের সময় মডেলকে দেওয়া নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে পারে। আরও তথ্যের জন্য, LoRA এর সাথে কাস্টমাইজ দেখুন।
শুরু করুন
আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি মৌলিক বাস্তবায়নের মধ্য দিয়ে নিয়ে যায়, কোড উদাহরণ সহ যা একটি ডিফল্ট মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলি ব্যবহার করে:
- অ্যান্ড্রয়েড - কোড উদাহরণ - গাইড
- LoRA দিয়ে কাস্টমাইজ করুন - কোড উদাহরণ - Colab
টাস্কের বিবরণ
এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।
বৈশিষ্ট্য
আপনি নিম্নলিখিত বাস্তবায়ন করতে ইমেজ জেনারেটর ব্যবহার করতে পারেন:
- টেক্সট-টু-ইমেজ জেনারেশন - টেক্সট প্রম্পট দিয়ে ইমেজ তৈরি করুন।
- কন্ডিশন ইমেজ সহ ইমেজ জেনারেশন - একটি টেক্সট প্রম্পট এবং একটি রেফারেন্স ইমেজ সহ ইমেজ তৈরি করুন। ইমেজ জেনারেটর কন্ডিশন ইমেজ ব্যবহার করে কন্ট্রোলনেটের মতো।
- LoRA ওজন সহ ইমেজ জেনারেশন - কাস্টমাইজড মডেল ওজন ব্যবহার করে একটি টেক্সট প্রম্পট সহ নির্দিষ্ট ব্যক্তি, বস্তু এবং শৈলীর ছবি তৈরি করুন।
টাস্ক ইনপুট | টাস্ক আউটপুট |
---|---|
ইমেজ জেনারেটর নিম্নলিখিত ইনপুট গ্রহণ করে:
| ইমেজ জেনারেটর নিম্নলিখিত ফলাফল আউটপুট:
|
কনফিগারেশন অপশন
এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:
বিকল্পের নাম | বর্ণনা | মান পরিসীমা |
---|---|---|
imageGeneratorModelDirectory | ইমেজ জেনারেটর মডেল ডিরেক্টরি মডেলের ওজন সংরক্ষণ করে। | PATH |
loraWeightsFilePath | LoRA ওজন ফাইলের পথ সেট করে। ঐচ্ছিক এবং শুধুমাত্র প্রযোজ্য যদি মডেলটি LoRA দিয়ে কাস্টমাইজ করা হয়। | PATH |
errorListener | একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে। | N/A |
টাস্কটি প্লাগইন মডেলগুলিকেও সমর্থন করে, যা ব্যবহারকারীদের টাস্ক ইনপুটে কন্ডিশন ইমেজ অন্তর্ভুক্ত করতে দেয়, যা ফাউন্ডেশন মডেল বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। এই অবস্থার চিত্রগুলি মুখের ল্যান্ডমার্ক, প্রান্তের রূপরেখা এবং গভীরতার অনুমান হতে পারে, যা মডেলটি ছবি তৈরি করতে অতিরিক্ত প্রসঙ্গ এবং তথ্য হিসাবে ব্যবহার করে।
ফাউন্ডেশন মডেলে একটি প্লাগইন মডেল যোগ করার সময়, প্লাগইন বিকল্পগুলিও কনফিগার করুন। ফেস ল্যান্ডমার্ক প্লাগইন faceConditionOptions
ব্যবহার করে, Canny edge প্লাগইন edgeConditionOptions
ব্যবহার করে, এবং Depth প্লাগইন depthConditionOptions
ব্যবহার করে।
ক্যানি প্রান্ত বিকল্প
edgeConditionOptions
এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
threshold1 | হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড। | Float | 100 |
threshold2 | হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। | Float | 200 |
apertureSize | সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে। | Integer | 3 |
l2Gradient | ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা। | BOOLEAN | False |
EdgePluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।
ল্যান্ডমার্ক বিকল্পের মুখোমুখি
faceConditionOptions
এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
minFaceDetectionConfidence | মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷ | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর। | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। | BaseOptions অবজেক্ট | N/A |
FacePluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্ক দেখুন।
গভীরতার বিকল্প
depthConditionOptions
এ নিম্নলিখিত অপশনগুলি কনফিগার করুন।
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
depthModelBaseOptions | BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। | BaseOptions অবজেক্ট | N/A |
depthPluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
মডেল
ইমেজ জেনারেটরের জন্য একটি ফাউন্ডেশন মডেল প্রয়োজন, যা একটি টেক্সট-টু-ইমেজ এআই মডেল যা নতুন ছবি তৈরি করতে ডিফিউশন কৌশল ব্যবহার করে। এই বিভাগে তালিকাভুক্ত ফাউন্ডেশন মডেলগুলি হাই-এন্ড স্মার্টফোনে চালানোর জন্য অপ্টিমাইজ করা হালকা ওজনের মডেল।
প্লাগইন মডেলগুলি ঐচ্ছিক এবং মৌলিক মডেলগুলির পরিপূরক, ব্যবহারকারীদের আরও নির্দিষ্ট চিত্র তৈরির জন্য একটি পাঠ্য প্রম্পটের সাথে একটি অতিরিক্ত শর্ত চিত্র প্রদান করতে সক্ষম করে। LoRA ওজন ব্যবহার করে ফাউন্ডেশন মডেলগুলি কাস্টমাইজ করা একটি বিকল্প যা একটি নির্দিষ্ট ধারণা, যেমন একটি বস্তু, ব্যক্তি বা শৈলী সম্পর্কে ফাউন্ডেশন মডেল শেখায় এবং সেগুলিকে জেনারেট করা ছবিতে ইনজেক্ট করে৷
ফাউন্ডেশন মডেল
ফাউন্ডেশন মডেল হল সুপ্ত টেক্সট-টু-ইমেজ ডিফিউশন মডেল যা টেক্সট প্রম্পট থেকে ছবি তৈরি করে। ইমেজ জেনারেটরের প্রয়োজন যে ফাউন্ডেশন মডেলটি নিম্নলিখিত মডেলের উপর ভিত্তি করে runwayml/stable-diffusion-v1-5 EMA-only
মডেল ফর্ম্যাটের সাথে মেলে:
নিম্নলিখিত ফাউন্ডেশন মডেলগুলি ইমেজ জেনারেটরের সাথেও সামঞ্জস্যপূর্ণ:
একটি ফাউন্ডেশন মডেল ডাউনলোড করার পরে, ইমেজ জেনারেটরের জন্য উপযুক্ত অন-ডিভাইস বিন্যাসে মডেলটিকে রূপান্তর করতে image_generator_converter ব্যবহার করুন।
প্রয়োজনীয় নির্ভরতা ইনস্টল করুন:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
convert.py
স্ক্রিপ্ট চালান:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
প্লাগইন মডেল
এই বিভাগে প্লাগইন মডেলগুলি Google দ্বারা বিকাশিত এবং একটি ভিত্তি মডেলের সাথে একত্রে ব্যবহার করা আবশ্যক৷ প্লাগইন মডেলগুলি ইমেজ জেনারেটরকে ইনপুট হিসাবে একটি পাঠ্য প্রম্পট সহ একটি শর্ত চিত্র গ্রহণ করতে সক্ষম করে, যা আপনাকে জেনারেট করা চিত্রগুলির গঠন নিয়ন্ত্রণ করতে দেয়। প্লাগইন মডেলগুলি কন্ট্রোলনেটের মতো ক্ষমতা প্রদান করে, বিশেষত অন-ডিভাইস ডিফিউশনের জন্য একটি অভিনব আর্কিটেকচার সহ।
প্লাগইন মডেলগুলি অবশ্যই বেস বিকল্পগুলিতে নির্দিষ্ট করা উচিত এবং আপনাকে অতিরিক্ত মডেল ফাইলগুলি ডাউনলোড করতে হতে পারে৷ প্রতিটি প্লাগইনের অবস্থা চিত্রের জন্য অনন্য প্রয়োজনীয়তা রয়েছে, যা চিত্র জেনারেটর দ্বারা তৈরি করা যেতে পারে।
ক্যানি এজ প্লাগইন
ক্যানি এজ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা জেনারেট করা ইমেজের উদ্দিষ্ট প্রান্তগুলিকে রূপরেখা দেয়। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা নিহিত প্রান্ত ব্যবহার করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ইমেজ তৈরি করে। ইমেজ জেনারেটরে কন্ডিশন ইমেজ তৈরি করার জন্য অন্তর্নির্মিত ক্ষমতা রয়েছে এবং শুধুমাত্র প্লাগইন মডেল ডাউনলোড করতে হবে।
ক্যানি এজ প্লাগইন ডাউনলোড করুন
ক্যানি এজ প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
threshold1 | হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড। | Float | 100 |
threshold2 | হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড। | Float | 200 |
apertureSize | সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে। | Integer | 3 |
l2Gradient | ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা। | BOOLEAN | False |
EdgePluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।
ফেস ল্যান্ডমার্ক প্লাগইন
ফেস ল্যান্ডমার্ক প্লাগইন মিডিয়াপাইপ ফেস ল্যান্ডমার্কার থেকে কন্ডিশন ইমেজ হিসাবে আউটপুট গ্রহণ করে। ফেস ল্যান্ডমার্কার একটি একক মুখের একটি বিস্তারিত ফেস মেশ প্রদান করে, যা মুখের বৈশিষ্ট্যগুলির উপস্থিতি এবং অবস্থান ম্যাপ করে। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা উহ্য ফেসিয়াল ম্যাপিং ব্যবহার করে এবং জালের উপরে একটি নতুন মুখ তৈরি করে।
ফেস ল্যান্ডমার্ক প্লাগইন ডাউনলোড করুন
কন্ডিশন ইমেজ তৈরি করতে ফেস ল্যান্ডমার্ক প্লাগইনটিরও ফেস ল্যান্ডমার্কার মডেল বান্ডেল প্রয়োজন। এই মডেল বান্ডিলটি একই বান্ডিল যা ফেস ল্যান্ডমার্কার টাস্ক দ্বারা ব্যবহৃত হয়।
ফেস ল্যান্ডমার্ক মডেল বান্ডেল ডাউনলোড করুন
ফেস ল্যান্ডমার্ক প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
minFaceDetectionConfidence | মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷ | Float [0.0,1.0] | 0.5 |
minFacePresenceConfidence | মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর। | Float [0.0,1.0] | 0.5 |
faceModelBaseOptions | BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। | BaseOptions অবজেক্ট | N/A |
FacePluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্ক দেখুন।
গভীরতার প্লাগইন
Depth প্লাগইন একটি শর্ত ইমেজ গ্রহণ করে যা একটি বস্তুর মনোকুলার গভীরতা নির্দিষ্ট করে। ফাউন্ডেশন মডেলটি তৈরি করা বস্তুর আকার এবং গভীরতা অনুমান করতে শর্ত চিত্র ব্যবহার করে এবং পাঠ্য প্রম্পটের উপর ভিত্তি করে একটি নতুন চিত্র তৈরি করে।
কন্ডিশন ইমেজ তৈরি করতে Depth প্লাগইনের একটি Depth estimation মডেলেরও প্রয়োজন।
গভীরতা অনুমান মডেল ডাউনলোড করুন
ডেপথ প্লাগইনে নিম্নলিখিত কনফিগারেশন অপশন রয়েছে:
বিকল্পের নাম | বর্ণনা | মান পরিসীমা | ডিফল্ট মান |
---|---|---|---|
depthModelBaseOptions | BaseOptions অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে। | BaseOptions অবজেক্ট | N/A |
depthPluginModelBaseOptions | BaseOptions অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে। | BaseOptions অবজেক্ট | N/A |
LoRA সঙ্গে কাস্টমাইজেশন
LoRA এর সাথে একটি মডেল কাস্টমাইজ করা ইমেজ জেনারেটরকে নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে সক্ষম করতে পারে, যা প্রশিক্ষণের সময় অনন্য টোকেন দ্বারা চিহ্নিত করা হয়। প্রশিক্ষণের পরে নতুন LoRA ওজনের সাথে, টেক্সট প্রম্পটে টোকেন নির্দিষ্ট করা হলে মডেলটি নতুন ধারণার ছবি তৈরি করতে সক্ষম হয়।
LoRA ওজন তৈরি করার জন্য একটি নির্দিষ্ট বস্তু, ব্যক্তি বা শৈলীর চিত্রগুলির উপর একটি ভিত্তি মডেল প্রশিক্ষণের প্রয়োজন, যা মডেলটিকে নতুন ধারণা সনাক্ত করতে এবং চিত্র তৈরি করার সময় এটি প্রয়োগ করতে সক্ষম করে। আপনি যদি নির্দিষ্ট ব্যক্তি এবং মুখের ছবি তৈরি করার জন্য LoRa ওজন তৈরি করেন, তবে শুধুমাত্র আপনার মুখে বা এমন লোকদের মুখের উপর এই সমাধানটি ব্যবহার করুন যারা আপনাকে এটি করার অনুমতি দিয়েছে।
নীচে টোকেন "monadikos teapot" ব্যবহার করে, DreamBooth ডেটাসেট থেকে চা-পাতার চিত্রের উপর প্রশিক্ষিত একটি কাস্টমাইজড মডেল থেকে আউটপুট দেওয়া হল:
প্রম্পট : একটি আয়নার পাশে একটি মোনাডিকোস টিপট
কাস্টমাইজড মডেলটি প্রম্পটে টোকেনটি পেয়েছে এবং একটি চাপানিটি ইনজেকশন করেছে যা এটি LoRA ওজন থেকে চিত্রিত করতে শিখেছে এবং প্রম্পটে অনুরোধ অনুযায়ী এটি একটি আয়নার পাশে ছবিটি স্থাপন করেছে।
আরও তথ্যের জন্য, কাস্টমাইজেশন গাইড দেখুন, যা একটি ফাউন্ডেশন মডেলে LoRA ওজন প্রয়োগ করে একটি মডেল কাস্টমাইজ করতে Vertex AI-তে মডেল গার্ডেন ব্যবহার করে।