Gemini API জেমিনি 2.0 ফ্ল্যাশ পরীক্ষামূলক ব্যবহার করে এবং Imagen 3 ব্যবহার করে ইমেজ তৈরিকে সমর্থন করে। এই নির্দেশিকা আপনাকে উভয় মডেলের সাথে শুরু করতে সাহায্য করে।
একটি মডেল চয়ন করুন
ছবি তৈরি করতে আপনার কোন মডেল ব্যবহার করা উচিত? এটি আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে।
প্রসঙ্গ গুরুত্বপূর্ণ হলে, মিথুন 2.0 এর চেয়ে সঠিক পছন্দ। জেমিনি 2.0 প্রাসঙ্গিকভাবে প্রাসঙ্গিক ছবি তৈরি করতে, মাল্টিমোডাল আউটপুট (টেক্সট + ইমেজ) মিশ্রিত করার জন্য, বিশ্ব জ্ঞানকে একত্রিত করতে এবং ছবি সম্পর্কে যুক্তির জন্য সেরা। আপনি দীর্ঘ পাঠ্য অনুক্রমের মধ্যে এমবেড করা সঠিক, প্রাসঙ্গিকভাবে প্রাসঙ্গিক ভিজ্যুয়াল তৈরি করতে এটি ব্যবহার করতে পারেন। আপনি কথোপকথন জুড়ে প্রসঙ্গ বজায় রেখে প্রাকৃতিক ভাষা ব্যবহার করে কথোপকথনমূলকভাবে ছবি সম্পাদনা করতে পারেন।
যদি ছবির গুণমান আপনার শীর্ষ অগ্রাধিকার হয়, তাহলে Imagen 3 একটি ভাল পছন্দ। ইমেজেন 3 ফটোরিয়ালিজম, শৈল্পিক বিশদ এবং ইম্প্রেশনিজম বা অ্যানিমের মতো নির্দিষ্ট শৈল্পিক শৈলীতে পারদর্শী। ইমেজেন 3 পণ্যের ব্যাকগ্রাউন্ড আপডেট করা, ছবি আপস্কেল করা এবং ব্র্যান্ডিং এবং স্টাইলকে ভিজ্যুয়ালে যুক্ত করার মতো বিশেষ চিত্র সম্পাদনা কাজের জন্য একটি ভাল পছন্দ। আপনি লোগো বা অন্যান্য ব্র্যান্ডেড পণ্য ডিজাইন তৈরি করতে Imagen 3 ব্যবহার করতে পারেন।
মিথুন ব্যবহার করে ছবি তৈরি করুন
Gemini 2.0 Flash Experimental ইনলাইন ইমেজ সহ পাঠ্য আউটপুট করার ক্ষমতা সমর্থন করে। এটি আপনাকে কথোপকথনমূলকভাবে চিত্রগুলি সম্পাদনা করতে বা অন্তর্নির্মিত পাঠ্যের সাথে আউটপুট তৈরি করতে মিথুন ব্যবহার করতে দেয় (উদাহরণস্বরূপ, একক পালা করে পাঠ্য এবং চিত্র সহ একটি ব্লগ পোস্ট তৈরি করা)। সমস্ত জেনারেট করা ছবিতে একটি SynthID ওয়াটারমার্ক রয়েছে, এবং AI স্টুডিওর ছবিতে একটি দৃশ্যমান ওয়াটারমার্কও রয়েছে৷
প্রম্পট এবং প্রসঙ্গের উপর নির্ভর করে, মিথুন বিভিন্ন মোডে সামগ্রী তৈরি করবে (টেক্সট টু ইমেজ, টেক্সট টু ইমেজ এবং টেক্সট ইত্যাদি)। এখানে কিছু উদাহরণ আছে:
- টেক্সট টু ইমেজ
- উদাহরণ প্রম্পট: "পটভূমিতে আতশবাজি সহ আইফেল টাওয়ারের একটি চিত্র তৈরি করুন।"
- টেক্সট টু ইমেজ এবং টেক্সট (ইন্টারলিভড)
- উদাহরণ প্রম্পট: "পায়েলার জন্য একটি চিত্রিত রেসিপি তৈরি করুন।"
- ছবি(গুলি) এবং টেক্সট টু ইমেজ(গুলি) এবং টেক্সট (ইন্টারলিভড)
- উদাহরণ প্রম্পট: (একটি সজ্জিত ঘরের একটি চিত্র সহ) "আমার জায়গায় অন্য কোন রঙের সোফা কাজ করবে? আপনি কি ছবিটি আপডেট করতে পারেন?"
- ছবি সম্পাদনা (টেক্সট এবং ইমেজ থেকে ইমেজ)
- উদাহরণ প্রম্পট: "একটি কার্টুনের মতো দেখতে এই ছবিটি সম্পাদনা করুন"
- উদাহরণ প্রম্পট: [একটি বিড়ালের ছবি] + [একটি বালিশের ছবি] + "এই বালিশে আমার বিড়ালের একটি ক্রস সেলাই তৈরি করুন।"
- মাল্টি-টার্ন ইমেজ এডিটিং (চ্যাট)
- উদাহরণ প্রম্পট: [একটি নীল গাড়ির একটি ছবি আপলোড করুন।] "এই গাড়িটিকে একটি রূপান্তরযোগ্য করে দিন।" "এখন রং পরিবর্তন করে হলুদ করুন।"
মিথুন উদাহরণ
নিচের উদাহরণটি দেখায় কিভাবে টেক্সট-এবং-ইমেজ আউটপুট তৈরি করতে Gemini 2.0 ব্যবহার করতে হয়:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client()
contents = ('Hi, can you create a 3d rendered image of a pig '
'with wings and a top hat flying over a happy '
'futuristic scifi city with lots of greenery?')
response = client.models.generate_content(
model="models/gemini-2.0-flash-exp",
contents=contents,
config=types.GenerateContentConfig(response_modalities=['Text', 'Image'])
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.show()
কোড নমুনা একটি ছবি আউটপুট করা উচিত এবং সেইসাথে পাঠ্য আউটপুট হতে পারে.
আরও ব্যবহারের ক্ষেত্রে এবং উদাহরণের জন্য, Gemini API কুকবুকে চিত্র-আউট গাইডটি দেখুন।
সীমাবদ্ধতা
- সেরা পারফরম্যান্সের জন্য, নিম্নলিখিত ভাষাগুলি ব্যবহার করুন: EN, es-MX, ja-JP, zh-CN, hi-IN৷
- ইমেজ জেনারেশন অডিও বা ভিডিও ইনপুট সমর্থন করে না।
- ইমেজ জেনারেশন সবসময় ট্রিগার নাও হতে পারে:
- মডেল শুধুমাত্র টেক্সট আউটপুট হতে পারে. সুস্পষ্টভাবে ইমেজ আউটপুট জিজ্ঞাসা করার চেষ্টা করুন (যেমন "একটি ছবি তৈরি করুন", "ছবি প্রদান করুন যেমন আপনি যান", "চিত্র আপডেট করুন")।
- মডেলটি আংশিকভাবে তৈরি করা বন্ধ করতে পারে। আবার চেষ্টা করুন বা একটি ভিন্ন প্রম্পট চেষ্টা করুন.
- একটি চিত্রের জন্য পাঠ্য তৈরি করার সময়, আপনি যদি প্রথমে পাঠ্য তৈরি করেন এবং তারপর পাঠ্য সহ একটি চিত্রের জন্য জিজ্ঞাসা করেন তবে মিথুন সবচেয়ে ভাল কাজ করে।
Imagen 3 ব্যবহার করে ছবি তৈরি করুন
Gemini API, Google-এর সর্বোচ্চ মানের টেক্সট-টু-ইমেজ মডেল, Imagen 3 -তে অ্যাক্সেস প্রদান করে, যেখানে বেশ কিছু নতুন এবং উন্নত ক্ষমতা রয়েছে। চিত্র 3 নিম্নলিখিত কাজ করতে পারে:
- পূর্ববর্তী মডেলগুলির তুলনায় আরও ভাল বিশদ, সমৃদ্ধ আলো এবং কম বিভ্রান্তিকর শিল্পকর্ম সহ চিত্রগুলি তৈরি করুন
- স্বাভাবিক ভাষায় লেখা প্রম্পটগুলি বুঝুন
- বিস্তৃত বিন্যাস এবং শৈলীতে ছবি তৈরি করুন
- পূর্ববর্তী মডেলের তুলনায় আরো কার্যকরভাবে পাঠ্য রেন্ডার করুন
চিত্রের উদাহরণ
এই বিভাগটি আপনাকে দেখায় কিভাবে একটি ইমেজেন মডেল ইনস্ট্যান্ট করতে হয় এবং ছবি তৈরি করতে হয়।
আপনি Google Gen AI SDK ইনস্টল করার পরে, আপনি চিত্র তৈরি করতে নিম্নলিখিত কোড ব্যবহার করতে পারেন:
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Fuzzy bunnies in my kitchen',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
কোড নমুনাটি এইটির মতো চারটি চিত্র আউটপুট করা উচিত:
এছাড়াও আপনি জেমিনি কুকবুকে ইমেজেন নোটবুক দিয়ে শুরু করার চেষ্টা করতে পারেন।
ইমেজ মডেল পরামিতি
নিম্নলিখিত পরামিতি generate_images()
এর জন্য উপলব্ধ:
-
prompt
: ছবির জন্য টেক্সট প্রম্পট। -
number_of_images
: 1 থেকে 4 পর্যন্ত (অন্তর্ভুক্ত) তৈরি করা ছবির সংখ্যা। ডিফল্ট হল 4। -
aspect_ratio
: উত্পন্ন চিত্রের অনুপাত পরিবর্তন করে। সমর্থিত মানগুলি হল"1:1"
,"3:4"
,"4:3"
,"9:16"
, এবং"16:9"
ডিফল্ট হল"1:1"
। -
safety_filter_level
: নিরাপত্তা ফিল্টারিং এ একটি ফিল্টার স্তর যোগ করে। নিম্নলিখিত মানগুলি বৈধ:-
"BLOCK_LOW_AND_ABOVE"
: যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরLOW
,MEDIUM
বাHIGH
হয় তখন ব্লক করুন। -
"BLOCK_MEDIUM_AND_ABOVE"
: যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরMEDIUM
বাHIGH
হয় তখন ব্লক করুন। -
"BLOCK_ONLY_HIGH"
: সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরHIGH
হলে ব্লক করুন।
-
-
person_generation
: মডেলটিকে মানুষের ছবি তৈরি করার অনুমতি দিন। নিম্নলিখিত মানগুলি সমর্থিত:-
"DONT_ALLOW"
: মানুষের ছবি তৈরি করা ব্লক করুন। -
"ALLOW_ADULT"
: প্রাপ্তবয়স্কদের ছবি তৈরি করুন, কিন্তু শিশুদের নয়৷ এটি ডিফল্ট।
-
একটি অদৃশ্যমান ডিজিটাল SynthID ওয়াটারমার্ক সবসময় জেনারেট করা ছবিতে যোগ করা হয়।
টেক্সট প্রম্পট ভাষা
নিম্নলিখিত ইনপুট পাঠ্য প্রম্পট ভাষা সমর্থিত:
- ইংরেজি (
en
)
এরপর কি
- ইমেজেনের জন্য প্রম্পট লেখা সম্পর্কে আরও জানতে, ইমেজেন প্রম্পট গাইডটি দেখুন।
- জেমিনি 2.0 মডেল সম্পর্কে আরও জানতে, জেমিনি মডেল এবং পরীক্ষামূলক মডেলগুলি দেখুন।