গুগল এআই এজ পোর্টাল পেশ করা হচ্ছে : বেঞ্চমার্ক এজ এআই স্কেলে। ব্যক্তিগত পূর্বরূপের সময় অ্যাক্সেসের অনুরোধ করতে সাইন আপ করুন ৷

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ইমেজ জেনারেশন গাইড

ইমেজ জেনারেটরের কাজ

MediaPipe ইমেজ জেনারেটর টাস্ক আপনাকে একটি টেক্সট প্রম্পটের উপর ভিত্তি করে ছবি তৈরি করতে দেয়। এই টাস্কটি ডিফিউশন কৌশল ব্যবহার করে ইমেজ তৈরি করতে টেক্সট-টু-ইমেজ মডেল ব্যবহার করে।

টাস্কটি ইনপুট হিসাবে একটি পাঠ্য প্রম্পট গ্রহণ করে, একটি ঐচ্ছিক অবস্থার চিত্র সহ যা মডেলটি বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। শর্তযুক্ত টেক্সট-টু-ইমেজ জেনারেশন সম্পর্কে আরও জানতে, কন্ডিশন্ড টেক্সট-টু-ইমেজ জেনারেশনের জন্য অন-ডিভাইস ডিফিউশন প্লাগইনগুলি দেখুন।

ইমেজ জেনারেটর প্রশিক্ষণ বা পুনঃপ্রশিক্ষণের সময় মডেলকে দেওয়া নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে পারে। আরও তথ্যের জন্য, LoRA এর সাথে কাস্টমাইজ দেখুন।

শুরু করুন

আপনার লক্ষ্য প্ল্যাটফর্মের জন্য এই বাস্তবায়ন নির্দেশিকাগুলির একটি অনুসরণ করে এই কাজটি ব্যবহার করা শুরু করুন। এই প্ল্যাটফর্ম-নির্দিষ্ট নির্দেশিকাগুলি আপনাকে এই টাস্কের একটি মৌলিক বাস্তবায়নের মধ্য দিয়ে নিয়ে যায়, কোড উদাহরণ সহ যা একটি ডিফল্ট মডেল এবং প্রস্তাবিত কনফিগারেশন বিকল্পগুলি ব্যবহার করে:

অ্যান্ড্রয়েড - কোড উদাহরণ - গাইড
LoRA দিয়ে কাস্টমাইজ করুন - কোড উদাহরণ - Colab

টাস্কের বিবরণ

এই বিভাগটি এই কাজের ক্ষমতা, ইনপুট, আউটপুট এবং কনফিগারেশন বিকল্পগুলি বর্ণনা করে।

বৈশিষ্ট্য

আপনি নিম্নলিখিত বাস্তবায়ন করতে ইমেজ জেনারেটর ব্যবহার করতে পারেন:

টেক্সট-টু-ইমেজ জেনারেশন - টেক্সট প্রম্পট দিয়ে ইমেজ তৈরি করুন।
কন্ডিশন ইমেজ সহ ইমেজ জেনারেশন - একটি টেক্সট প্রম্পট এবং একটি রেফারেন্স ইমেজ সহ ইমেজ তৈরি করুন। ইমেজ জেনারেটর কন্ডিশন ইমেজ ব্যবহার করে কন্ট্রোলনেটের মতো।
LoRA ওজন সহ ইমেজ জেনারেশন - কাস্টমাইজড মডেল ওজন ব্যবহার করে একটি টেক্সট প্রম্পট সহ নির্দিষ্ট ব্যক্তি, বস্তু এবং শৈলীর ছবি তৈরি করুন।

টাস্ক ইনপুট	টাস্ক আউটপুট
ইমেজ জেনারেটর নিম্নলিখিত ইনপুট গ্রহণ করে: টেক্সট প্রম্পট বীজ উৎপন্ন পুনরাবৃত্তির সংখ্যা ঐচ্ছিক: শর্ত চিত্র	ইমেজ জেনারেটর নিম্নলিখিত ফলাফল আউটপুট: ইনপুট উপর ভিত্তি করে ইমেজ তৈরি. ঐচ্ছিক: জেনারেট করা ছবির পুনরাবৃত্তিমূলক স্ন্যাপশট।

টাস্ক ইনপুট

টাস্ক আউটপুট

ইমেজ জেনারেটর নিম্নলিখিত ইনপুট গ্রহণ করে:

টেক্সট প্রম্পট

বীজ

উৎপন্ন পুনরাবৃত্তির সংখ্যা

ঐচ্ছিক: শর্ত চিত্র

ইমেজ জেনারেটর নিম্নলিখিত ফলাফল আউটপুট:

ইনপুট উপর ভিত্তি করে ইমেজ তৈরি.

ঐচ্ছিক: জেনারেট করা ছবির পুনরাবৃত্তিমূলক স্ন্যাপশট।

কনফিগারেশন অপশন

এই কাজের নিম্নলিখিত কনফিগারেশন বিকল্প আছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা
`imageGeneratorModelDirectory`	ইমেজ জেনারেটর মডেল ডিরেক্টরি মডেলের ওজন সংরক্ষণ করে।	`PATH`
`loraWeightsFilePath`	LoRA ওজন ফাইলের পথ সেট করে। ঐচ্ছিক এবং শুধুমাত্র প্রযোজ্য যদি মডেলটি LoRA দিয়ে কাস্টমাইজ করা হয়।	`PATH`
`errorListener`	একটি ঐচ্ছিক ত্রুটি শ্রোতা সেট করে।	`N/A`

টাস্কটি প্লাগইন মডেলগুলিকেও সমর্থন করে, যা ব্যবহারকারীদের টাস্ক ইনপুটে কন্ডিশন ইমেজ অন্তর্ভুক্ত করতে দেয়, যা ফাউন্ডেশন মডেল বৃদ্ধি করতে পারে এবং প্রজন্মের জন্য একটি রেফারেন্স হিসাবে ব্যবহার করতে পারে। এই অবস্থার চিত্রগুলি মুখের ল্যান্ডমার্ক, প্রান্তের রূপরেখা এবং গভীরতার অনুমান হতে পারে, যা মডেলটি ছবি তৈরি করতে অতিরিক্ত প্রসঙ্গ এবং তথ্য হিসাবে ব্যবহার করে।

ফাউন্ডেশন মডেলে একটি প্লাগইন মডেল যোগ করার সময়, প্লাগইন বিকল্পগুলিও কনফিগার করুন। ফেস ল্যান্ডমার্ক প্লাগইন faceConditionOptions ব্যবহার করে, Canny edge প্লাগইন edgeConditionOptions ব্যবহার করে, এবং Depth প্লাগইন depthConditionOptions ব্যবহার করে।

ক্যানি প্রান্ত বিকল্প

edgeConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`threshold1`	হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড।	`Float`	`100`
`threshold2`	হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড।	`Float`	`200`
`apertureSize`	সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে।	`Integer`	`3`
`l2Gradient`	ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা।	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ক্যানি এজ ডিটেক্টর দেখুন।

ল্যান্ডমার্ক বিকল্পের মুখোমুখি

faceConditionOptions এ নিম্নলিখিত বিকল্পগুলি কনফিগার করুন।

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`minFaceDetectionConfidence`	মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর।	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে।	`BaseOptions` অবজেক্ট	`N/A`
`FacePluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

এই কনফিগারেশন বিকল্পগুলি কীভাবে কাজ করে সে সম্পর্কে আরও তথ্যের জন্য, ফেস ল্যান্ডমার্কার টাস্ক দেখুন।

গভীরতার বিকল্প

depthConditionOptions এ নিম্নলিখিত অপশনগুলি কনফিগার করুন।

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`depthModelBaseOptions`	`BaseOptions` অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে।	`BaseOptions` অবজেক্ট	`N/A`
`depthPluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

মডেল

ইমেজ জেনারেটরের জন্য একটি ফাউন্ডেশন মডেল প্রয়োজন, যা একটি টেক্সট-টু-ইমেজ এআই মডেল যা নতুন ছবি তৈরি করতে ডিফিউশন কৌশল ব্যবহার করে। এই বিভাগে তালিকাভুক্ত ফাউন্ডেশন মডেলগুলি হাই-এন্ড স্মার্টফোনে চালানোর জন্য অপ্টিমাইজ করা হালকা ওজনের মডেল।

প্লাগইন মডেলগুলি ঐচ্ছিক এবং মৌলিক মডেলগুলির পরিপূরক, ব্যবহারকারীদের আরও নির্দিষ্ট চিত্র তৈরির জন্য একটি পাঠ্য প্রম্পটের সাথে একটি অতিরিক্ত শর্ত চিত্র প্রদান করতে সক্ষম করে। LoRA ওজন ব্যবহার করে ফাউন্ডেশন মডেলগুলি কাস্টমাইজ করা একটি বিকল্প যা একটি নির্দিষ্ট ধারণা, যেমন একটি বস্তু, ব্যক্তি বা শৈলী সম্পর্কে ফাউন্ডেশন মডেল শেখায় এবং সেগুলিকে জেনারেট করা ছবিতে ইনজেক্ট করে৷

ফাউন্ডেশন মডেল

ফাউন্ডেশন মডেল হল সুপ্ত টেক্সট-টু-ইমেজ ডিফিউশন মডেল যা টেক্সট প্রম্পট থেকে ছবি তৈরি করে। ইমেজ জেনারেটরের প্রয়োজন যে ফাউন্ডেশন মডেলটি নিম্নলিখিত মডেলের উপর ভিত্তি করে stable-diffusion-v1-5/stable-diffusion-v1-5 EMA-only মডেল ফর্ম্যাটের সাথে মেলে:

stable-diffusion-v1-5/stable-diffusion-v1-5

নিম্নলিখিত ফাউন্ডেশন মডেলগুলি ইমেজ জেনারেটরের সাথেও সামঞ্জস্যপূর্ণ:

একটি ফাউন্ডেশন মডেল ডাউনলোড করার পরে, ইমেজ জেনারেটরের জন্য উপযুক্ত অন-ডিভাইস বিন্যাসে মডেলটিকে রূপান্তর করতে image_generator_converter ব্যবহার করুন।

প্রয়োজনীয় নির্ভরতা ইনস্টল করুন:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

convert.py স্ক্রিপ্ট চালান:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

প্লাগইন মডেল

এই বিভাগে প্লাগইন মডেলগুলি Google দ্বারা বিকাশিত এবং একটি ভিত্তি মডেলের সাথে একত্রে ব্যবহার করা আবশ্যক৷ প্লাগইন মডেলগুলি ইমেজ জেনারেটরকে ইনপুট হিসাবে একটি পাঠ্য প্রম্পট সহ একটি শর্ত চিত্র গ্রহণ করতে সক্ষম করে, যা আপনাকে জেনারেট করা চিত্রগুলির গঠন নিয়ন্ত্রণ করতে দেয়। প্লাগইন মডেলগুলি কন্ট্রোলনেটের মতো ক্ষমতা প্রদান করে, বিশেষত অন-ডিভাইস ডিফিউশনের জন্য একটি অভিনব আর্কিটেকচার সহ।

প্লাগইন মডেলগুলি অবশ্যই বেস বিকল্পগুলিতে নির্দিষ্ট করা উচিত এবং আপনাকে অতিরিক্ত মডেল ফাইলগুলি ডাউনলোড করতে হতে পারে৷ প্রতিটি প্লাগইনের অবস্থা চিত্রের জন্য অনন্য প্রয়োজনীয়তা রয়েছে, যা চিত্র জেনারেটর দ্বারা তৈরি করা যেতে পারে।

ক্যানি এজ প্লাগইন

দুটি উত্পন্ন চিত্রের উদাহরণ আউটপুট যা ইটগুলির একটি শক্তিশালী রূপরেখা এবং প্রম্পট সহ একটি প্রদত্ত অবস্থার চিত্র ব্যবহার করে

ক্যানি এজ প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা জেনারেট করা ইমেজের উদ্দিষ্ট প্রান্তগুলিকে রূপরেখা দেয়। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা নিহিত প্রান্ত ব্যবহার করে এবং টেক্সট প্রম্পটের উপর ভিত্তি করে একটি নতুন ইমেজ তৈরি করে। ইমেজ জেনারেটরে কন্ডিশন ইমেজ তৈরি করার জন্য অন্তর্নির্মিত ক্ষমতা রয়েছে এবং শুধুমাত্র প্লাগইন মডেল ডাউনলোড করতে হবে।

ক্যানি এজ প্লাগইন ডাউনলোড করুন

ক্যানি এজ প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`threshold1`	হিস্টেরেসিস পদ্ধতির জন্য প্রথম থ্রেশহোল্ড।	`Float`	`100`
`threshold2`	হিস্টেরেসিস পদ্ধতির জন্য দ্বিতীয় থ্রেশহোল্ড।	`Float`	`200`
`apertureSize`	সোবেল অপারেটরের জন্য অ্যাপারচারের আকার। সাধারণ পরিসীমা 3-7 এর মধ্যে।	`Integer`	`3`
`l2Gradient`	ডিফল্ট L1 আদর্শের পরিবর্তে ইমেজ গ্রেডিয়েন্ট ম্যাগনিটিউড গণনা করতে L2 আদর্শ ব্যবহার করা হয় কিনা।	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

ফেস ল্যান্ডমার্ক প্লাগইন

দুটি উত্পন্ন চিত্রের উদাহরণ আউটপুট যা একটি স্কেচ করা মুখের একটি প্রদত্ত অবস্থার চিত্র এবং দুটি ভিন্ন প্রম্পট ব্যবহার করে দেখায় যে একই অবস্থার চিত্রটি খুব ভিন্ন চেহারার চিত্র তৈরি করতে ব্যবহার করা যেতে পারে

ফেস ল্যান্ডমার্ক প্লাগইন মিডিয়াপাইপ ফেস ল্যান্ডমার্কার থেকে কন্ডিশন ইমেজ হিসাবে আউটপুট গ্রহণ করে। ফেস ল্যান্ডমার্কার একটি একক মুখের একটি বিস্তারিত ফেস মেশ প্রদান করে, যা মুখের বৈশিষ্ট্যগুলির উপস্থিতি এবং অবস্থান ম্যাপ করে। ফাউন্ডেশন মডেল কন্ডিশন ইমেজ দ্বারা উহ্য ফেসিয়াল ম্যাপিং ব্যবহার করে এবং জালের উপরে একটি নতুন মুখ তৈরি করে।

ফেস ল্যান্ডমার্ক প্লাগইন ডাউনলোড করুন

কন্ডিশন ইমেজ তৈরি করতে ফেস ল্যান্ডমার্ক প্লাগইনটিরও ফেস ল্যান্ডমার্কার মডেল বান্ডেল প্রয়োজন। এই মডেল বান্ডিলটি একই বান্ডিল যা ফেস ল্যান্ডমার্কার টাস্ক দ্বারা ব্যবহৃত হয়।

ফেস ল্যান্ডমার্ক মডেল বান্ডেল ডাউনলোড করুন

ফেস ল্যান্ডমার্ক প্লাগইনে নিম্নলিখিত কনফিগারেশন বিকল্পগুলি রয়েছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`minFaceDetectionConfidence`	মুখ শনাক্তকরণ সফল বলে বিবেচিত হওয়ার জন্য সর্বনিম্ন আত্মবিশ্বাসের স্কোর৷	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	মুখের ল্যান্ডমার্ক সনাক্তকরণে মুখ উপস্থিতি স্কোরের সর্বনিম্ন আত্মবিশ্বাসের স্কোর।	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	`BaseOptions` অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে।	`BaseOptions` অবজেক্ট	`N/A`
`FacePluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

গভীরতার প্লাগইন

দুটি উত্পন্ন চিত্রের উদাহরণ আউটপুট যা একটি প্রদত্ত অবস্থার চিত্র ব্যবহার করে একটি গাড়ির একটি সাধারণ আকৃতি দেখায় যে ডেপথ প্লাগইন এমন চিত্র তৈরি করতে পারে যা একটি সমতল চিত্রে গভীরতা যোগ করতে পারে

Depth প্লাগইন একটি কন্ডিশন ইমেজ গ্রহণ করে যা একটি বস্তুর মনোকুলার গভীরতা নির্দিষ্ট করে। ফাউন্ডেশন মডেলটি তৈরি করা বস্তুর আকার এবং গভীরতা অনুমান করতে শর্ত চিত্র ব্যবহার করে এবং পাঠ্য প্রম্পটের উপর ভিত্তি করে একটি নতুন চিত্র তৈরি করে।

ডেপথ প্লাগইন ডাউনলোড করুন

কন্ডিশন ইমেজ তৈরি করতে Depth প্লাগইনের একটি Depth estimation মডেলেরও প্রয়োজন।

গভীরতা অনুমান মডেল ডাউনলোড করুন

ডেপথ প্লাগইনে নিম্নলিখিত কনফিগারেশন অপশন রয়েছে:

বিকল্পের নাম	বর্ণনা	মান পরিসীমা	ডিফল্ট মান
`depthModelBaseOptions`	`BaseOptions` অবজেক্ট যা মডেলের জন্য পাথ সেট করে যা কন্ডিশন ইমেজ তৈরি করে।	`BaseOptions` অবজেক্ট	`N/A`
`depthPluginModelBaseOptions`	`BaseOptions` অবজেক্ট যা প্লাগইন মডেলের জন্য পাথ সেট করে।	`BaseOptions` অবজেক্ট	`N/A`

LoRA সঙ্গে কাস্টমাইজেশন

LoRA এর সাথে একটি মডেল কাস্টমাইজ করা ইমেজ জেনারেটরকে নির্দিষ্ট ধারণার উপর ভিত্তি করে ছবি তৈরি করতে সক্ষম করতে পারে, যা প্রশিক্ষণের সময় অনন্য টোকেন দ্বারা চিহ্নিত করা হয়। প্রশিক্ষণের পরে নতুন LoRA ওজনের সাথে, টেক্সট প্রম্পটে টোকেন নির্দিষ্ট করা হলে মডেলটি নতুন ধারণার ছবি তৈরি করতে সক্ষম হয়।

LoRA ওজন তৈরি করার জন্য একটি নির্দিষ্ট বস্তু, ব্যক্তি বা শৈলীর চিত্রগুলির উপর একটি ভিত্তি মডেল প্রশিক্ষণের প্রয়োজন, যা মডেলটিকে নতুন ধারণা সনাক্ত করতে এবং চিত্র তৈরি করার সময় এটি প্রয়োগ করতে সক্ষম করে। আপনি যদি নির্দিষ্ট ব্যক্তি এবং মুখের ছবি তৈরি করার জন্য LoRa ওজন তৈরি করেন, তবে শুধুমাত্র আপনার মুখে বা এমন লোকদের মুখের উপর এই সমাধানটি ব্যবহার করুন যারা আপনাকে এটি করার অনুমতি দিয়েছে।

নীচে টোকেন "monadikos teapot" ব্যবহার করে, DreamBooth ডেটাসেট থেকে চা-পাতার চিত্রের উপর প্রশিক্ষিত একটি কাস্টমাইজড মডেল থেকে আউটপুট দেওয়া হল:

দেয়ালে লাগানো আয়নার পাশে টেবিলে বসে থাকা চায়ের পাত্রের একটি জেনারেট করা ফটো বাস্তবসম্মত চিত্র

প্রম্পট : একটি আয়নার পাশে একটি মোনাডিকোস টিপট

কাস্টমাইজড মডেলটি প্রম্পটে টোকেনটি পেয়েছে এবং একটি চাপানিটি ইনজেকশন করেছে যা এটি LoRA ওজন থেকে চিত্রিত করতে শিখেছে এবং প্রম্পটে অনুরোধ অনুযায়ী এটি একটি আয়নার পাশে ছবিটি স্থাপন করেছে।

Vertex AI সহ LoRA

আরও তথ্যের জন্য, কাস্টমাইজেশন গাইড দেখুন, যা একটি ফাউন্ডেশন মডেলে LoRA ওজন প্রয়োগ করে একটি মডেল কাস্টমাইজ করতে Vertex AI-তে মডেল গার্ডেন ব্যবহার করে।