Imagen 3 का इस्तेमाल करके इमेज जनरेट करना

Gemini API, Imagen 3 का ऐक्सेस देता है. यह Google का, इमेज जनरेट करने वाला सबसे बेहतर मॉडल है. Imagen का इस्तेमाल करके, टेक्स्ट प्रॉम्प्ट से नई इमेज जनरेट की जा सकती हैं. Imagen के साथ Gemini API को इंटिग्रेट करके, इस तरह से डिज़ाइन किया गया है कि आपको अगली-पीढ़ी की टेक्नोलॉजी वाले ऐसे एआई ऐप्लिकेशन बनाने में मदद करेगा जो उपयोगकर्ता के प्रॉम्प्ट को कुछ ही सेकंड में अच्छी क्वालिटी वाली विज़ुअल एसेट.

इस गाइड से आपको Gemini API Python का इस्तेमाल करके Imagen का इस्तेमाल करने में मदद मिलेगी SDK टूल.

Imagen 3 के बारे में

Imagen 3, टेक्स्ट से इमेज जनरेट करने वाला Google का सबसे शानदार मॉडल है. इसमें कई नई और बेहतर सुविधाएं हैं. इमेज 3 के ये काम किए जा सकते हैं:

  • बेहतर क्वालिटी, बेहतर रोशनी, और ध्यान भटकाने वाले एलिमेंट के साथ इमेज जनरेट करें आर्टफ़ैक्ट.
  • सामान्य और रोज़मर्रा की भाषा में लिखे गए प्रॉम्प्ट को समझना. इससे, प्रॉम्प्ट को जटिल तरीके से तैयार किए बिना, अलाइन किए गए आउटपुट को जनरेट करना आसान हो जाता है.
  • अलग-अलग फ़ॉर्मैट और स्टाइल में इमेज जनरेट करें. जैसे, फ़ोटो जैसी दिखने वाली लैंडस्केप इमेज, ज़्यादा टेक्सचर वाली ऑयल पेंटिंग या मज़ेदार क्लेमेशन सीन.
  • पिछले मॉडल की तुलना में टेक्स्ट को ज़्यादा असरदार तरीके से रेंडर करें. इससे नया पेज खुलता है इस्तेमाल के कई उदाहरणों, जैसे कि बेहतर बनाए गए जन्मदिन कार्ड, प्रज़ेंटेशन, और वगैरह को कॉपी करने का विकल्प है.

Imagen 3 को Google के नवीनतम सुरक्षा और ज़िम्मेदारी से जुड़े इनोवेशन के साथ बनाया गया था, डेटा और मॉडल डेवलपमेंट से लेकर प्रोडक्शन तक. Google DeepMind टीम ने डेटासेट में नुकसान पहुंचाने वाले कॉन्टेंट को कम करने के लिए, बड़े पैमाने पर फ़िल्टर और डेटा को लेबल करना और नुकसान पहुंचाने वाले आउटपुट की संभावना को कम करते हैं. टीम ने निष्पक्षता, पक्षपात, और कॉन्टेंट की सुरक्षा जैसे विषयों पर रेड टीमिंग और आकलन भी किए.

ज़्यादा जानने और उदाहरण के तौर पर दिया गया आउटपुट देखने के लिए, Google DeepMind Imagen 3 की खास जानकारी.

शुरू करने से पहले: अपना प्रोजेक्ट और एपीआई पासकोड सेट अप करना

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

Gemini API को कॉल करने से पहले, आपको अपना प्रोजेक्ट सेट अप करना होगा और उसे कॉन्फ़िगर करना होगा आपकी एपीआई कुंजी.

इमेज जनरेट करें

इस सेक्शन में, Imagen मॉडल को इंस्टैंशिएट करने और इमेज जनरेट करने का तरीका बताया गया है.

उदाहरण के तौर पर दिया गया कोड चलाने के लिए, आपको पहले Pillow इंस्टॉल करना होगा:

pip install --upgrade Pillow

इसके बाद, पिलो और Python SDK टूल को इंस्टॉल करके, इस कोड का इस्तेमाल किया जा सकता है इमेज जनरेट करने के लिए:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

नोटबुक में इस तरह की चार इमेज दिखनी चाहिए:

एआई से जनरेट की गई, किचन में मौजूद दो फ़ज़ी बन्नी की इमेज

Imagen मॉडल के पैरामीटर

generate_images() के लिए ये पैरामीटर उपलब्ध हैं:

  • prompt: इमेज के लिए टेक्स्ट प्रॉम्प्ट.
  • negative_prompt: जनरेट की गई इमेज में किन चीज़ों को शामिल नहीं करना है, इसकी जानकारी. डिफ़ॉल्ट रूप से, यह वैल्यू 'कोई नहीं' पर सेट होती है.

    उदाहरण के लिए, प्रॉम्प्ट "रात में बारिश के मौसम में, शहर की सड़क पर कोई व्यक्ति नहीं है". मॉडल, "लोगों" को कि क्या शामिल किया जाए, की जगह छूटी हुई है. बेहतर नतीजे पाने के लिए, "रात में बारिश की बूंदों से भीगी शहर की सड़क" प्रॉम्प्ट के साथ, "लोग" नेगेटिव प्रॉम्प्ट का इस्तेमाल किया जा सकता है.

  • number_of_images: जनरेट की जाने वाली इमेज की संख्या. 1 से 4 तक (दोनों इमेज भी शामिल हैं). डिफ़ॉल्ट वैल्यू 4 है.

  • aspect_ratio: जनरेट की गई इमेज का आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) बदलता है. "1:1", "3:4", "4:3", "9:16", और "16:9" वैल्यू इस्तेमाल की जा सकती हैं. डिफ़ॉल्ट सेटिंग यह है "1:1".

  • safety_filter_level: सुरक्षा फ़िल्टर करने की सुविधा में एक फ़िल्टर लेवल जोड़ता है. नीचे दिए गए मान मान्य हैं:

    • "block_low_and_above": जब संभावना का स्कोर या गंभीरता का स्कोर LOW, MEDIUM या HIGH हो, तो ब्लॉक करें.
    • "block_medium_and_above": जब संभावना का स्कोर या गंभीरता का स्कोर MEDIUM या HIGH हो, तब ब्लॉक करें.
    • "block_only_high": जब संभावना का स्कोर या गंभीरता का स्कोर HIGH हो, तो ब्लॉक करें.
  • person_generation: मॉडल को लोगों की इमेज जनरेट करने की अनुमति दें. कॉन्टेंट बनाने ये वैल्यू इस्तेमाल की जा सकती हैं:

    • "dont_allow": लोगों की इमेज जनरेट होने से रोकें.
    • "allow_adult": सिर्फ़ वयस्कों की इमेज जनरेट करें, न कि बच्चों की.

आगे क्या करना है

Gemini API में इमेज 3 को रिलीज़ होने से पहले इस्तेमाल किया जा सकता है. इस सुविधा के स्टेटस के बारे में सूचनाएं पाने के लिए, हमारे साथ बने रहें.