Gemini API دسترسی به Imagen 3 ، پیشرفته ترین مدل تولید تصویر گوگل را فراهم می کند. با استفاده از Imagen، می توانید تصاویر جدید را از پیام های متنی ایجاد کنید. ادغام Gemini API با Imagen به شما کمک میکند تا نسل بعدی برنامههای هوش مصنوعی بسازید که درخواستهای کاربر را در عرض چند ثانیه به داراییهای بصری با کیفیت بالا تبدیل میکنند.
این راهنما به شما کمک می کند تا با Imagen با استفاده از Gemini API Python SDK شروع کنید.
درباره Imagen 3
Imagen 3 با کیفیت ترین مدل متن به تصویر گوگل است که دارای تعدادی قابلیت جدید و بهبود یافته است. Imagen 3 می تواند کارهای زیر را انجام دهد:
- تصاویری با جزئیات بهتر، نورپردازی غنیتر و آثار باستانی کمتری نسبت به مدلهای قبلی ایجاد کنید.
- اعلانهایی را که به زبان طبیعی و روزمره نوشته شدهاند، درک کنید، و تولید خروجی همتراز را بدون مهندسی سریع و پیچیده آسانتر میکند.
- تصاویر را در طیف وسیعی از قالبها و سبکها، از مناظر واقعگرایانه گرفته تا نقاشیهای رنگ روغن با بافت غنی یا صحنههای سفالی عجیب و غریب، ایجاد کنید.
- متن را موثرتر از مدلهای قبلی رندر کنید و امکانات جدیدی را برای موارد استفاده مانند کارتهای تولد، ارائهها و موارد دیگر باز کنید.
Imagen 3 با آخرین نوآوریهای ایمنی و مسئولیتپذیری Google، از توسعه دادهها و مدلها تا تولید، ساخته شده است. تیم Google DeepMind از فیلتر گسترده و برچسبگذاری دادهها برای به حداقل رساندن محتوای مضر در مجموعه دادهها و کاهش احتمال خروجیهای مضر استفاده کرد. این تیم همچنین گروه بندی قرمز و ارزیابی هایی را در مورد موضوعاتی از جمله انصاف، تعصب و ایمنی محتوا انجام داد.
برای کسب اطلاعات بیشتر و دیدن نمونه خروجی، به نمای کلی Google DeepMind Imagen 3 مراجعه کنید.
قبل از شروع: پروژه و کلید API خود را تنظیم کنید
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
قبل از فراخوانی Gemini API، باید پروژه خود را راه اندازی کرده و کلید API خود را پیکربندی کنید.
کلید API خود را دریافت و ایمن کنید
برای فراخوانی Gemini API به یک کلید API نیاز دارید. اگر قبلاً یکی ندارید، یک کلید در Google AI Studio ایجاد کنید.
اکیداً توصیه می شود که یک کلید API را در سیستم کنترل نسخه خود بررسی نکنید .
شما باید کلید API خود را در یک فروشگاه محرمانه مانند Google Cloud Secret Manager ذخیره کنید.
این آموزش فرض می کند که شما به کلید API خود به عنوان یک متغیر محیطی دسترسی دارید.
بسته SDK را نصب کنید و کلید API خود را پیکربندی کنید
وابستگی را با استفاده از pip نصب کنید:
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
بسته را وارد کنید و سرویس را با کلید API خود پیکربندی کنید:
import os import google.generativeai as genai genai.configure(api_key=os.environ['API_KEY'])
تولید تصاویر
این بخش به شما نشان می دهد که چگونه یک مدل Imagen را نمونه سازی کنید و تصاویر را تولید کنید.
برای اجرای کد نمونه، ابتدا باید Pillow را نصب کنید:
pip install --upgrade Pillow
سپس، با نصب Pillow و Python SDK، می توانید از کد زیر برای تولید تصاویر استفاده کنید:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>
for image in result.images:
# Open and display the image using your local operating system.
image._pil_image.show()
نوت بوک باید چهار تصویر مشابه این تصویر را نمایش دهد:
پارامترهای مدل Imagen
پارامترهای زیر برای generate_images()
در دسترس هستند:
-
prompt
: درخواست متنی برای تصویر. negative_prompt
: شرحی از آنچه می خواهید در تصاویر تولید شده حذف شود. پیشفرض هیچکدام.به عنوان مثال، اعلان "یک خیابان شهری بارانی در شب بدون مردم" را در نظر بگیرید. این مدل ممکن است «مردم» را بهعنوان دستورالعملی تفسیر کند که به جای حذف کردن، چه چیزی را شامل شود. برای ایجاد نتایج بهتر، می توانید از اعلان "یک خیابان شهر بارانی در شب" با یک پیام منفی "مردم" استفاده کنید.
number_of_images
: تعداد تصاویر برای تولید، از 1 تا 4 (شامل). پیش فرض 4 است.aspect_ratio
: نسبت ابعاد تصویر تولید شده را تغییر می دهد. مقادیر پشتیبانی شده عبارتند از"1:1"
،"3:4"
،"4:3"
،"9:16"
و"16:9"
. پیش فرض"1:1"
است.safety_filter_level
: یک سطح فیلتر را به فیلتر ایمنی اضافه می کند. مقادیر زیر معتبر هستند:-
"block_low_and_above"
: وقتی امتیاز احتمال یا نمره شدتLOW
،MEDIUM
یاHIGH
باشد مسدود می شود. -
"block_medium_and_above"
: وقتی امتیاز احتمال یا نمره شدتMEDIUM
یاHIGH
باشد مسدود شود. -
"block_only_high"
: وقتی امتیاز احتمال یا نمره شدتHIGH
باشد مسدود شود.
-
person_generation
: به مدل اجازه می دهد تصاویری از افراد تولید کند. مقادیر زیر پشتیبانی می شوند:-
"dont_allow"
: تولید تصاویر افراد را مسدود کنید. -
"allow_adult"
: تصاویری از بزرگسالان ایجاد کنید، اما نه کودکان.
-
زبان درخواست متن
زبانهای اعلان متن ورودی زیر پشتیبانی میشوند:
- چینی (ساده شده) (
zh
/zh-CN
) - چینی (سنتی) (
zh-TW
) - انگلیسی (
en
) - هندی (
hi
) - ژاپنی (
ja
) - کره ای (
ko
) - پرتغالی (
pt
) - اسپانیایی (
es
)
بعدش چی
Imagen 3 در Gemini API در دسترسی اولیه است. منتظر اطلاعیه های مربوط به وضعیت این ویژگی باشید.