توفّر واجهة برمجة التطبيقات Gemini API إمكانية الوصول إلى Imagen 3، وهو نموذج الجيل التالي لإنشاء الصور من Google. باستخدام Imagen، يمكنك إنشاء صور جديدة من طلبات نصية. تم تصميم عملية دمج Gemini API مع Imagen بهدف مساعدتك في إنشاء تطبيقات الذكاء الاصطناعي من الجيل التالي التي تحوّل طلبات المستخدمين إلى مواد عرض مرئية عالية الجودة في غضون ثوانٍ.
سيساعدك هذا الدليل في بدء استخدام Imagen باستخدام حزمة تطوير البرامج (SDK) الخاصة بـ Gemini API Python.
لمحة عن Imagen 3
Imagen 3 هو نموذج تحويل النصوص إلى صور الأعلى جودة من Google، ويضمّ عددًا من الإمكانات الجديدة والمحسّنة. يمكن لخدمة Imagen 3 تنفيذ ما يلي:
- إنشاء صور بتفاصيل أفضل وإضاءة أكثر ثراءً وعناصر فنية أقل تشتيتًا مقارنةً بالنماذج السابقة
- فهم الطلبات المكتوبة بلغة طبيعية يومية، ما يسهّل إنشاء إخراج متوافق بدون هندسة طلبات معقدة
- يمكنك إنشاء صور بتنسيقات وأنماط متنوعة، بدءًا من المناظر الطبيعية الواقعية ووصولاً إلى اللوحات الزيتية الغنية بالزخارف أو المشاهد الغريبة على صخور الطين.
- عرض النصوص بفعالية أكبر من النماذج السابقة، ما يفتح آفاقًا جديدة لحالات الاستخدام، مثل بطاقات أعياد الميلاد والعروض التقديمية وغيرها
تم إنشاء Imagen 3 باستخدام أحدث ابتكارات Google في مجال الأمان والمسؤولية، بدءًا من تطوير البيانات والنماذج ووصولاً إلى مرحلة الإنتاج. استخدَم فريق Google DeepMind عمليات فلترة واسعة النطاق وتصنيف البيانات للحدّ من المحتوى الضار في مجموعات البيانات وتقليل احتمالية ظهور نتائج ضارة. أجرى الفريق أيضًا تقييمات وجلسات مناقشة بشأن مواضيع تشمل المساواة والانحياز وأمان المحتوى.
للاطّلاع على مزيد من المعلومات والاطّلاع على أمثلة على النتائج، يمكنك الاطّلاع على نظرة عامة على Google DeepMind Imagen 3.
قبل البدء: عليك إعداد مشروعك ومفتاح واجهة برمجة التطبيقات.
pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen
قبل طلب Gemini API، عليك إعداد مشروعك وضبط مفتاح واجهة برمجة التطبيقات.
إنشاء صور
يوضح هذا القسم كيفية إنشاء مثيل لنموذج Imagen وإنشاء صور.
لتنفيذ مثال الرمز، عليك أولاً تثبيت Pillow:
pip install --upgrade Pillow
بعد تثبيت Pillow وحزمة تطوير البرامج (SDK) لـ Python، يمكنك استخدام التعليمة البرمجية التالية لإنشاء الصور:
import os
import google.generativeai as genai
genai.configure(api_key=os.environ['API_KEY'])
imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")
result = imagen.generate_images(
prompt="Fuzzy bunnies in my kitchen",
number_of_images=4,
safety_filter_level="block_only_high",
person_generation="allow_adult",
aspect_ratio="3:4",
negative_prompt="Outside",
)
for image in result.images:
print(image)
# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>
for image in result.images:
# Open and display the image using your local operating system.
image._pil_image.show()
يجب أن يعرض دفتر الملاحظات أربع صور مشابهة لهذه الصورة:
مَعلمات نموذج Imagen
تتوفّر المَعلمات التالية لـ generate_images()
:
prompt
: الطلب النصي للصورة.negative_prompt
: وصف لما تريد حذفه في الصور التي يتم إنشاؤها الإعداد التلقائي هو "بدون".على سبيل المثال، ضع في اعتبارك الطلب "شارع مدينة ممطر ليلاً بدون أشخاص". قد يفسّر النموذج "الأشخاص" على أنّه توجيه لما يجب تضمينه بدلاً من حذفه. للحصول على نتائج أفضل، يمكنك استخدام الطلب "أحد شوارع المدينة الممطرة في الليل" مع طلب سلبي "الأشخاص".
number_of_images
: عدد الصور المطلوب إنشاؤها، من 1 إلى 4 (شاملة). القيمة التلقائية هي 4.aspect_ratio
: يغيّر هذا الخيار نسبة العرض إلى الارتفاع للصورة التي يتم إنشاؤها. القيم المتوافقة هي"1:1"
و"3:4"
و"4:3"
و"9:16"
و"16:9"
. القيمة التلقائية هي"1:1"
.safety_filter_level
: تُضيف مستوى فلترة إلى فلترة الأمان. القيم التالية صالحة:"block_low_and_above"
: الحظر عندما تكون نتيجة الاحتمالية أو نتيجة الشدة هيLOW
أوMEDIUM
أوHIGH
"block_medium_and_above"
: الحظر عندما تكون نتيجة الاحتمالية أو نتيجة الشدة هيMEDIUM
أوHIGH
"block_only_high"
: الحظر عندما تكون نتيجة الاحتمالية أو نتيجة الخطورةHIGH
person_generation
: السماح للنموذج بإنشاء صور لأشخاص في ما يلي القيم التالية المسموح بها:"dont_allow"
: حظر إنشاء صور لأشخاص"allow_adult"
: إنشاء صور للبالغين وليس للأطفال
لغة الطلب النصي
تتوفّر اللغات التالية لطلبات إدخال نص الإدخال:
- الصينية (المبسّطة) (
zh
/zh-CN
) - الصينية (التقليدية) (
zh-TW
) - الإنجليزية (
en
) - الهندية (
hi
) - اليابانية (
ja
) - الكورية (
ko
) - البرتغالية (
pt
) - الإسبانية (
es
)
الخطوات التالية
يمكن استخدام الصورة 3 في Gemini API قبل إطلاقها. يُرجى متابعتنا لمعرفة آخر الأخبار بشأن حالة الميزة.