Gemini API, Google-এর অত্যাধুনিক ইমেজ জেনারেশন মডেল, Imagen 3- তে অ্যাক্সেস প্রদান করে। Imagen ব্যবহার করে, আপনি টেক্সট প্রম্পট থেকে অভিনব ছবি তৈরি করতে পারেন। ইমেজেনের সাথে জেমিনি API ইন্টিগ্রেশনটি আপনাকে পরবর্তী প্রজন্মের AI অ্যাপ্লিকেশন তৈরি করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে যা ব্যবহারকারীর প্রম্পটকে কয়েক সেকেন্ডের মধ্যে উচ্চ মানের ভিজ্যুয়াল সম্পদে রূপান্তরিত করে।
এই গাইড আপনাকে Gemini API Python SDK ব্যবহার করে Imagen এর সাথে শুরু করতে সাহায্য করবে।
চিত্র 3 সম্পর্কে
Imagen 3 হল Google-এর সর্বোচ্চ মানের টেক্সট-টু-ইমেজ মডেল, এতে বেশ কিছু নতুন এবং উন্নত ক্ষমতা রয়েছে। চিত্র 3 নিম্নলিখিত কাজ করতে পারে:
- পূর্ববর্তী মডেলগুলির তুলনায় আরও ভাল বিশদ, সমৃদ্ধ আলো এবং কম বিভ্রান্তিকর শিল্পকর্ম সহ চিত্রগুলি তৈরি করুন৷
- স্বাভাবিক, দৈনন্দিন ভাষায় লেখা প্রম্পটগুলি বুঝুন, জটিল প্রম্পট ইঞ্জিনিয়ারিং ছাড়াই সারিবদ্ধ আউটপুট তৈরি করা সহজ করে তোলে।
- বিস্তৃত বিন্যাস এবং শৈলীতে ছবি তৈরি করুন, ফটোরিয়ালিস্টিক ল্যান্ডস্কেপ থেকে শুরু করে প্রচুর টেক্সচার্ড তেল পেইন্টিং বা বাতিক কাদামাটির দৃশ্য।
- স্টাইলাইজড জন্মদিনের কার্ড, উপস্থাপনা এবং আরও অনেক কিছুর মতো ব্যবহারের ক্ষেত্রে নতুন সম্ভাবনা উন্মুক্ত করে, আগের মডেলগুলির তুলনায় আরও কার্যকরভাবে পাঠ্য রেন্ডার করুন৷
Imagen 3 ডেটা এবং মডেল ডেভেলপমেন্ট থেকে শুরু করে প্রোডাকশন পর্যন্ত Google-এর সর্বশেষ নিরাপত্তা এবং দায়িত্বের উদ্ভাবন নিয়ে তৈরি করা হয়েছে। Google DeepMind টিম ডেটাসেটে ক্ষতিকারক বিষয়বস্তু কমাতে এবং ক্ষতিকারক আউটপুট হওয়ার সম্ভাবনা কমাতে ব্যাপক ফিল্টারিং এবং ডেটা লেবেলিং ব্যবহার করেছে। দলটি ন্যায্যতা, পক্ষপাতিত্ব এবং বিষয়বস্তুর নিরাপত্তা সহ বিষয়গুলিতে লাল দলবদ্ধকরণ এবং মূল্যায়নও পরিচালনা করেছে।
আরও জানতে এবং উদাহরণ আউটপুট দেখতে, Google DeepMind Imagen 3 ওভারভিউ দেখুন।
আপনি শুরু করার আগে: আপনার প্রকল্প এবং API কী সেট আপ করুন
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
Gemini API কল করার আগে, আপনাকে আপনার প্রকল্প সেট আপ করতে হবে এবং আপনার API কী কনফিগার করতে হবে।
আপনার API কী পান এবং সুরক্ষিত করুন
Gemini API কল করার জন্য আপনার একটি API কী প্রয়োজন। আপনার যদি ইতিমধ্যে একটি না থাকে তবে Google AI স্টুডিওতে একটি কী তৈরি করুন৷
এটি দৃঢ়ভাবে সুপারিশ করা হয় যে আপনি আপনার সংস্করণ নিয়ন্ত্রণ সিস্টেমে একটি API কী চেক করবেন না ৷
Google ক্লাউড সিক্রেট ম্যানেজার- এর মতো গোপন স্টোরে আপনার API কী সংরক্ষণ করা উচিত।
এই টিউটোরিয়ালটি অনুমান করে যে আপনি একটি পরিবেশ পরিবর্তনশীল হিসাবে আপনার API কী অ্যাক্সেস করছেন।
SDK প্যাকেজ ইনস্টল করুন এবং আপনার API কী কনফিগার করুন
পিপ ব্যবহার করে নির্ভরতা ইনস্টল করুন:
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
প্যাকেজটি আমদানি করুন এবং আপনার API কী দিয়ে পরিষেবাটি কনফিগার করুন:
import os import google.generativeai as genai genai.configure(api_key=os.environ['API_KEY'])
ছবি তৈরি করুন
এই বিভাগটি আপনাকে দেখায় কিভাবে একটি ইমেজেন মডেল ইনস্ট্যান্ট করতে হয় এবং ছবি তৈরি করতে হয়।
উদাহরণ কোড চালানোর জন্য, আপনাকে প্রথমে পিলো ইনস্টল করতে হবে:
pip install --upgrade Pillow
তারপরে, বালিশ এবং পাইথন SDK ইনস্টল করার সাথে, আপনি চিত্র তৈরি করতে নিম্নলিখিত কোডটি ব্যবহার করতে পারেন:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>
for image in result.images:
# Open and display the image using your local operating system.
image._pil_image.show()
নোটবুকে এইটির মতো চারটি চিত্র প্রদর্শন করা উচিত:
ইমেজ মডেল পরামিতি
নিম্নলিখিত পরামিতি generate_images()
এর জন্য উপলব্ধ:
-
prompt
: ছবির জন্য টেক্সট প্রম্পট। negative_prompt
: জেনারেট করা ছবিতে আপনি কী বাদ দিতে চান তার একটি বিবরণ। কোনোটির জন্যই ডিফল্ট নয়।উদাহরণস্বরূপ, প্রম্পটটি বিবেচনা করুন "একটি বৃষ্টির শহরের রাস্তায় রাতে কোন লোক নেই"। মডেলটি "মানুষ"কে বাদ দেওয়ার পরিবর্তে কী অন্তর্ভুক্ত করতে হবে তার নির্দেশনা হিসাবে ব্যাখ্যা করতে পারে। ভাল ফলাফল জেনারেট করতে, আপনি "রাতে একটি বৃষ্টির শহরের রাস্তায়" একটি নেতিবাচক প্রম্পট "মানুষ" ব্যবহার করতে পারেন।
number_of_images
: 1 থেকে 4 পর্যন্ত (অন্তর্ভুক্ত) তৈরি করা ছবির সংখ্যা। ডিফল্ট হল 4।aspect_ratio
: উত্পন্ন চিত্রের অনুপাত পরিবর্তন করে। সমর্থিত মানগুলি হল"1:1"
,"3:4"
,"4:3"
,"9:16"
, এবং"16:9"
। ডিফল্ট হল"1:1"
।safety_filter_level
: নিরাপত্তা ফিল্টারিং এ একটি ফিল্টার স্তর যোগ করে। নিম্নলিখিত মানগুলি বৈধ:-
"block_low_and_above"
: যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরLOW
,MEDIUM
বাHIGH
হয় তখন ব্লক করুন। -
"block_medium_and_above"
: যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরMEDIUM
বাHIGH
হয় তখন ব্লক করুন। -
"block_only_high"
: যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোরHIGH
হয় তখন ব্লক করুন।
-
person_generation
: মডেলটিকে মানুষের ছবি তৈরি করার অনুমতি দিন। নিম্নলিখিত মানগুলি সমর্থিত:-
"dont_allow"
: লোকেদের ছবি তৈরি করা ব্লক করুন। -
"allow_adult"
: প্রাপ্তবয়স্কদের ছবি তৈরি করুন, কিন্তু শিশুদের নয়।
-
টেক্সট প্রম্পট ভাষা
নিম্নলিখিত ইনপুট পাঠ্য প্রম্পট ভাষা সমর্থিত:
- চীনা (সরলীকৃত) (
zh
/zh-CN
) - চীনা (ঐতিহ্যগত) (
zh-TW
) - ইংরেজি (
en
) - হিন্দি (
hi
) - জাপানি (
ja
) - কোরিয়ান (
ko
) - পর্তুগিজ (
pt
) - স্প্যানিশ (
es
)
এরপর কি
Gemini API-এর চিত্র 3 প্রাথমিক অ্যাক্সেসে রয়েছে। বৈশিষ্ট্যটির অবস্থা সম্পর্কে ঘোষণার জন্য সাথে থাকুন।