Imagen 3 ব্যবহার করে ছবি তৈরি করুন

Gemini API, Google-এর অত্যাধুনিক ইমেজ জেনারেশন মডেল, Imagen 3- তে অ্যাক্সেস প্রদান করে। Imagen ব্যবহার করে, আপনি টেক্সট প্রম্পট থেকে অভিনব ছবি তৈরি করতে পারেন। ইমেজেনের সাথে জেমিনি API ইন্টিগ্রেশনটি আপনাকে পরবর্তী প্রজন্মের AI অ্যাপ্লিকেশন তৈরি করতে সাহায্য করার জন্য ডিজাইন করা হয়েছে যা ব্যবহারকারীর প্রম্পটকে কয়েক সেকেন্ডের মধ্যে উচ্চ মানের ভিজ্যুয়াল সম্পদে রূপান্তরিত করে।

এই গাইড আপনাকে Gemini API Python SDK ব্যবহার করে Imagen এর সাথে শুরু করতে সাহায্য করবে।

চিত্র 3 সম্পর্কে

Imagen 3 হল Google-এর সর্বোচ্চ মানের টেক্সট-টু-ইমেজ মডেল, এতে বেশ কিছু নতুন এবং উন্নত ক্ষমতা রয়েছে। চিত্র 3 নিম্নলিখিত কাজ করতে পারে:

  • পূর্ববর্তী মডেলগুলির তুলনায় আরও ভাল বিশদ, সমৃদ্ধ আলো এবং কম বিভ্রান্তিকর শিল্পকর্ম সহ চিত্রগুলি তৈরি করুন৷
  • স্বাভাবিক, দৈনন্দিন ভাষায় লেখা প্রম্পটগুলি বুঝুন, জটিল প্রম্পট ইঞ্জিনিয়ারিং ছাড়াই সারিবদ্ধ আউটপুট তৈরি করা সহজ করে তোলে।
  • বিস্তৃত বিন্যাস এবং শৈলীতে ছবি তৈরি করুন, ফটোরিয়ালিস্টিক ল্যান্ডস্কেপ থেকে শুরু করে প্রচুর টেক্সচার্ড তেল পেইন্টিং বা বাতিক কাদামাটির দৃশ্য।
  • স্টাইলাইজড জন্মদিনের কার্ড, উপস্থাপনা এবং আরও অনেক কিছুর মতো ব্যবহারের ক্ষেত্রে নতুন সম্ভাবনা উন্মুক্ত করে, আগের মডেলগুলির তুলনায় আরও কার্যকরভাবে পাঠ্য রেন্ডার করুন৷

Imagen 3 ডেটা এবং মডেল ডেভেলপমেন্ট থেকে শুরু করে প্রোডাকশন পর্যন্ত Google-এর সর্বশেষ নিরাপত্তা এবং দায়িত্বের উদ্ভাবন নিয়ে তৈরি করা হয়েছে। Google DeepMind টিম ডেটাসেটে ক্ষতিকারক বিষয়বস্তু কমাতে এবং ক্ষতিকারক আউটপুট হওয়ার সম্ভাবনা কমাতে ব্যাপক ফিল্টারিং এবং ডেটা লেবেলিং ব্যবহার করেছে। দলটি ন্যায্যতা, পক্ষপাতিত্ব এবং বিষয়বস্তুর নিরাপত্তা সহ বিষয়গুলিতে লাল দলবদ্ধকরণ এবং মূল্যায়নও পরিচালনা করেছে।

আরও জানতে এবং উদাহরণ আউটপুট দেখতে, Google DeepMind Imagen 3 ওভারভিউ দেখুন।

আপনি শুরু করার আগে: আপনার প্রকল্প এবং API কী সেট আপ করুন

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Gemini API কল করার আগে, আপনাকে আপনার প্রকল্প সেট আপ করতে হবে এবং আপনার API কী কনফিগার করতে হবে।

ছবি তৈরি করুন

এই বিভাগটি আপনাকে দেখায় কিভাবে একটি ইমেজেন মডেল ইনস্ট্যান্ট করতে হয় এবং ছবি তৈরি করতে হয়।

উদাহরণ কোড চালানোর জন্য, আপনাকে প্রথমে পিলো ইনস্টল করতে হবে:

pip install --upgrade Pillow

তারপরে, বালিশ এবং পাইথন SDK ইনস্টল করার সাথে, আপনি চিত্র তৈরি করতে নিম্নলিখিত কোডটি ব্যবহার করতে পারেন:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

নোটবুকে এইটির মতো চারটি চিত্র প্রদর্শন করা উচিত:

রান্নাঘরে দুটি অস্পষ্ট খরগোশের AI-উত্পন্ন চিত্র

ইমেজ মডেল পরামিতি

নিম্নলিখিত পরামিতি generate_images() এর জন্য উপলব্ধ:

  • prompt : ছবির জন্য টেক্সট প্রম্পট।
  • negative_prompt : জেনারেট করা ছবিতে আপনি কী বাদ দিতে চান তার একটি বিবরণ। কোনোটির জন্যই ডিফল্ট নয়।

    উদাহরণস্বরূপ, প্রম্পটটি বিবেচনা করুন "একটি বৃষ্টির শহরের রাস্তায় রাতে কোন লোক নেই"। মডেলটি "মানুষ"কে বাদ দেওয়ার পরিবর্তে কী অন্তর্ভুক্ত করতে হবে তার নির্দেশনা হিসাবে ব্যাখ্যা করতে পারে। ভাল ফলাফল জেনারেট করতে, আপনি "রাতে একটি বৃষ্টির শহরের রাস্তায়" একটি নেতিবাচক প্রম্পট "মানুষ" ব্যবহার করতে পারেন।

  • number_of_images : 1 থেকে 4 পর্যন্ত (অন্তর্ভুক্ত) তৈরি করা ছবির সংখ্যা। ডিফল্ট হল 4।

  • aspect_ratio : উত্পন্ন চিত্রের অনুপাত পরিবর্তন করে। সমর্থিত মানগুলি হল "1:1" , "3:4" , "4:3" , "9:16" , এবং "16:9" । ডিফল্ট হল "1:1"

  • safety_filter_level : নিরাপত্তা ফিল্টারিং এ একটি ফিল্টার স্তর যোগ করে। নিম্নলিখিত মানগুলি বৈধ:

    • "block_low_and_above" : যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোর LOW , MEDIUM বা HIGH হয় তখন ব্লক করুন।
    • "block_medium_and_above" : যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোর MEDIUM বা HIGH হয় তখন ব্লক করুন।
    • "block_only_high" : যখন সম্ভাব্যতা স্কোর বা তীব্রতার স্কোর HIGH হয় তখন ব্লক করুন।
  • person_generation : মডেলটিকে মানুষের ছবি তৈরি করার অনুমতি দিন। নিম্নলিখিত মানগুলি সমর্থিত:

    • "dont_allow" : লোকেদের ছবি তৈরি করা ব্লক করুন।
    • "allow_adult" : প্রাপ্তবয়স্কদের ছবি তৈরি করুন, কিন্তু শিশুদের নয়।

টেক্সট প্রম্পট ভাষা

নিম্নলিখিত ইনপুট পাঠ্য প্রম্পট ভাষা সমর্থিত:

  • চীনা (সরলীকৃত) ( zh / zh-CN )
  • চীনা (ঐতিহ্যগত) ( zh-TW )
  • ইংরেজি ( en )
  • হিন্দি ( hi )
  • জাপানি ( ja )
  • কোরিয়ান ( ko )
  • পর্তুগিজ ( pt )
  • স্প্যানিশ ( es )

এরপর কি

Gemini API-এর চিত্র 3 প্রাথমিক অ্যাক্সেসে রয়েছে। বৈশিষ্ট্যটির অবস্থা সম্পর্কে ঘোষণার জন্য সাথে থাকুন।