Gemini API, Imagen 3 का ऐक्सेस देता है. यह Google का, इमेज जनरेट करने वाला सबसे बेहतर मॉडल है. Imagen का इस्तेमाल करके, टेक्स्ट प्रॉम्प्ट से नई इमेज जनरेट की जा सकती हैं. Imagen के साथ Gemini API इंटिग्रेशन को, अगली पीढ़ी के एआई ऐप्लिकेशन बनाने में आपकी मदद करने के लिए डिज़ाइन किया गया है. ये ऐप्लिकेशन, उपयोगकर्ता के प्रॉम्प्ट को कुछ ही सेकंड में अच्छी क्वालिटी वाली विज़ुअल ऐसेट में बदल देते हैं.
इस गाइड की मदद से, Gemini API के Python SDK का इस्तेमाल करके, Imagen का इस्तेमाल शुरू किया जा सकता है.
Imagen 3 के बारे में जानकारी
Imagen 3, टेक्स्ट से इमेज जनरेट करने वाला Google का सबसे शानदार मॉडल है. इसमें कई नई और बेहतर सुविधाएं हैं. इमेज 3 के ये काम किए जा सकते हैं:
- पिछले मॉडल की तुलना में, बेहतर जानकारी, बेहतर रोशनी, और कम ध्यान भटकाने वाले आर्टफ़ैक्ट वाली इमेज जनरेट करता है.
- सामान्य और रोज़मर्रा की भाषा में लिखे गए प्रॉम्प्ट को समझना. इससे, प्रॉम्प्ट को जटिल तरीके से तैयार किए बिना, अलाइन किए गए आउटपुट को जनरेट करना आसान हो जाता है.
- कई तरह के फ़ॉर्मैट और स्टाइल में इमेज जनरेट करें. इनमें, फ़ोटोरियलिस्टिक लैंडस्केप से लेकर बेहतरीन बनावट वाली ऑइल पेंटिंग या क्लेमेशन सीन शामिल हैं.
- पिछले मॉडल की तुलना में टेक्स्ट को ज़्यादा असरदार तरीके से रेंडर करें. इससे जन्मदिन के बेहतर कार्ड, प्रज़ेंटेशन वगैरह जैसे इस्तेमाल के नए मौके मिलते हैं.
Imagen 3 को डेटा और मॉडल के डेवलपमेंट से लेकर प्रोडक्शन तक, सुरक्षा और ज़िम्मेदारी से जुड़े Google के नए इनोवेशन के साथ बनाया गया है. Google DeepMind की टीम ने डेटासेट में नुकसान पहुंचाने वाले कॉन्टेंट को कम करने और नुकसान पहुंचाने वाले आउटपुट की संभावना को कम करने के लिए, ज़्यादा फ़िल्टर करने और डेटा लेबल करने का इस्तेमाल किया. टीम ने निष्पक्षता, पक्षपात, और कॉन्टेंट की सुरक्षा जैसे विषयों पर टीम बनाकर समीक्षा की.
ज़्यादा जानने और आउटपुट का उदाहरण देखने के लिए, Google DeepMind Imagen 3 की खास जानकारी देखें.
शुरू करने से पहले: अपना प्रोजेक्ट और एपीआई पासकोड सेट अप करना
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
Gemini API को कॉल करने से पहले, आपको अपना प्रोजेक्ट सेट अप करना होगा और अपनी एपीआई पासकोड को कॉन्फ़िगर करना होगा.
इमेज जनरेट करें
इस सेक्शन में, Imagen मॉडल को इंस्टैंशिएट करने और इमेज जनरेट करने का तरीका बताया गया है.
उदाहरण के तौर पर दिया गया कोड चलाने के लिए, आपको पहले Pillow इंस्टॉल करना होगा:
pip install --upgrade Pillow
इसके बाद, Pillow और Python SDK टूल इंस्टॉल करने के बाद, इमेज जनरेट करने के लिए, नीचे दिए गए कोड का इस्तेमाल किया जा सकता है:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>
for image in result.images:
# Open and display the image using your local operating system.
image._pil_image.show()
नोटबुक में इस तरह की चार इमेज दिखनी चाहिए:
Imagen मॉडल के पैरामीटर
generate_images()
के लिए ये पैरामीटर उपलब्ध हैं:
prompt
: इमेज के लिए टेक्स्ट प्रॉम्प्ट.negative_prompt
: जनरेट की गई इमेज में किन चीज़ों को शामिल नहीं करना है, इसकी जानकारी. डिफ़ॉल्ट रूप से, यह वैल्यू 'कोई नहीं' पर सेट होती है.उदाहरण के लिए, प्रॉम्प्ट "रात में बारिश के मौसम में, शहर की सड़क पर कोई व्यक्ति नहीं है". मॉडल, "लोग" को शामिल करने के निर्देश के तौर पर समझ सकता है, न कि हटाने के निर्देश के तौर पर. बेहतर नतीजे जनरेट करने के लिए, "लोग" से नेगेटिव प्रॉम्प्ट के साथ "रात के समय शहर में बारिश हो रही सड़क" प्रॉम्प्ट का इस्तेमाल किया जा सकता है.
number_of_images
: जनरेट की जाने वाली इमेज की संख्या. 1 से 4 तक (दोनों इमेज भी शामिल हैं). डिफ़ॉल्ट रूप से, यह वैल्यू 4 होती है.aspect_ratio
: जनरेट की गई इमेज का आसपेक्ट रेशियो बदलता है."1:1"
,"3:4"
,"4:3"
,"9:16"
, और"16:9"
वैल्यू इस्तेमाल की जा सकती हैं. डिफ़ॉल्ट तौर पर, यह"1:1"
पर सेट होता है.safety_filter_level
: सुरक्षा फ़िल्टर करने के लिए एक फ़िल्टर लेवल जोड़ता है. ये वैल्यू मान्य हैं:"block_low_and_above"
: जब संभावना का स्कोर या गंभीरता का स्कोरLOW
,MEDIUM
याHIGH
हो, तो ब्लॉक करें."block_medium_and_above"
: जब संभावना का स्कोर या गंभीरता का स्कोरMEDIUM
याHIGH
हो, तब ब्लॉक करें."block_only_high"
: जब संभावना का स्कोर या गंभीरता का स्कोरHIGH
हो, तो ब्लॉक करें.
person_generation
: मॉडल को लोगों की इमेज जनरेट करने की अनुमति दें. नीचे दिए गए वैल्यू इस्तेमाल किए जा सकते हैं:"dont_allow"
: लोगों की इमेज जनरेट होने से रोकना."allow_adult"
: सिर्फ़ वयस्कों की इमेज जनरेट करें, बच्चों की नहीं.
टेक्स्ट प्रॉम्प्ट की भाषा
इनपुट टेक्स्ट प्रॉम्प्ट की ये भाषाएं काम करती हैं:
- चाइनीज़ (सिंप्लिफ़ाइड) (
zh
/zh-CN
) - चाइनीज़ (ट्रेडिशनल) (
zh-TW
) - अंग्रेज़ी (
en
) - हिन्दी (
hi
) - जैपनीज़ (
ja
) - कोरियन (
ko
) - पॉर्चुगीज़ (
pt
) - स्पैनिश (
es
)
आगे क्या करना है
Gemini API में Imagen 3, रिलीज़ होने से पहले इस्तेमाल करने के लिए उपलब्ध है. इस सुविधा के स्टेटस के बारे में सूचनाएं पाने के लिए, हमारे साथ बने रहें.