إنشاء صور باستخدام Imagen 3

توفّر واجهة برمجة التطبيقات Gemini API إمكانية الوصول إلى Imagen 3، وهو نموذج الجيل التالي لإنشاء الصور من Google. باستخدام Imagen، يمكنك إنشاء خلفيات الصور من الطلبات النصية. تم تصميم عملية دمج Gemini API مع Imagen بهدف مساعدتك في إنشاء تطبيقات الذكاء الاصطناعي من الجيل التالي التي تحوّل طلبات المستخدمين إلى مواد عرض مرئية عالية الجودة في غضون ثوانٍ.

سيساعدك هذا الدليل في بدء استخدام Imagen باستخدام Gemini API Python. SDK.

لمحة عن Imagen 3

الصورة 3 هي أعلى نموذج من Google لتحويل النص إلى صورة، وهو يعرض عددًا من إمكانات جديدة ومحسّنة. يمكن لخدمة Imagen 3 تنفيذ ما يلي:

  • يمكنك إنشاء صور بتفاصيل أفضل وإضاءة أكثر تشويقًا. الأدوات من النماذج السابقة.
  • فهم الطلبات المكتوبة بلغة طبيعية يومية، ما يسهّل إنشاء إخراج متوافق بدون هندسة طلبات معقدة
  • أنشئ صورًا بمجموعة كبيرة من التنسيقات والأنماط، بدءًا من المناظر الطبيعية التي تبدو واقعية إلى اللوحات الزيتية الدقيقة أو مشاهد الرسوم المتحركة الطينية المضحكة.
  • عرض النصوص بفعالية أكبر من النماذج السابقة، ما يفتح آفاقًا جديدة لحالات الاستخدام، مثل بطاقات أعياد الميلاد والعروض التقديمية وغيرها

تم تصميم الصورة 3 باستخدام أحدث ابتكارات الأمان والمسؤولية من Google، بداية من تطوير البيانات والنماذج إلى الإنتاج. استخدم فريق Google DeepMind الفلترة الشاملة وتصنيف البيانات لتقليل المحتوى الضارّ في مجموعات البيانات وتقليل احتمالية حدوث مخرجات ضارة. أجرى الفريق أيضًا تقييمات وجلسات مناقشة بشأن مواضيع تشمل المساواة والانحياز وسلامة المحتوى.

لمزيد من المعلومات والاطّلاع على مثال على الناتج، يمكنك الاطّلاع على نظرة عامة على الإصدار 3 من Google DeepMind Imagen

قبل البدء: عليك إعداد مشروعك ومفتاح واجهة برمجة التطبيقات.

pip install -U git+https://github.com/google-gemini/generative-ai-python@imagen

قبل طلب Gemini API، عليك إعداد مشروعك وإعداده. مفتاح واجهة برمجة التطبيقات الخاص بك.

إنشاء صور

يوضح هذا القسم كيفية إنشاء مثيل لنموذج Imagen وإنشاء صور.

لتنفيذ مثال الرمز، عليك أولاً تثبيت Pillow:

pip install --upgrade Pillow

بعد ذلك، مع تثبيت Pillow وPython SDK، يمكنك استخدام الرمز التالي لإنشاء الصور:

import os
import google.generativeai as genai

genai.configure(api_key=os.environ['API_KEY'])

imagen = genai.ImageGenerationModel("imagen-3.0-generate-001")

result = imagen.generate_images(
    prompt="Fuzzy bunnies in my kitchen",
    number_of_images=4,
    safety_filter_level="block_only_high",
    person_generation="allow_adult",
    aspect_ratio="3:4",
    negative_prompt="Outside",
)

for image in result.images:
  print(image)

# The output should look similar to this:
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef370>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f3396ef700>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c2b0>
# <vertexai.preview.vision_models.GeneratedImage object at 0x78f33953c280>

for image in result.images:
  # Open and display the image using your local operating system.
  image._pil_image.show()

من المفترض أن يعرض دفتر الملاحظات أربع صور مشابهة لهذه الصورة:

صورة من إنشاء الذكاء الاصطناعي لأرنبَين غامضَين في المطبخ

مَعلمات نموذج Imagen

تتوفّر المَعلمات التالية لـ generate_images():

  • prompt: الطلب النصي للصورة
  • negative_prompt: وصف لما تريد حذفه في العنصر الذي تم إنشاؤه الصور. الإعداد التلقائي هو "بدون".

    على سبيل المثال، ضع في الاعتبار الطلب "شارع مدينة ممطر ليلاً بدون أشخاص". قد يفسّر النموذج "الأشخاص" على أنّه توجيه لما يجب تضمينه بدلاً من حذفه. للحصول على نتائج أفضل، يمكنك استخدام الطلب "شارع مدينة مشمس في الليل" مع طلب سلبي "أشخاص".

  • number_of_images: عدد الصور المطلوب إنشاؤها، من 1 إلى 4 (شاملة). القيمة التلقائية هي 4.

  • aspect_ratio: لتغيير نسبة العرض إلى الارتفاع للصورة التي تم إنشاؤها متاح القيم هي "1:1" و"3:4" و"4:3" و"9:16" و"16:9". الإعداد الافتراضي هو "1:1"

  • safety_filter_level: تُضيف مستوى فلترة إلى الفلترة الآمنة. القيم التالية صالحة:

    • "block_low_and_above": الحظر عندما تكون نتيجة الاحتمالية أو نتيجة الشدة هي LOW أو MEDIUM أو HIGH
    • "block_medium_and_above": الحظر عندما تكون نتيجة الاحتمالية أو نتيجة الشدة هي MEDIUM أو HIGH
    • "block_only_high": الحظر عند رصد درجة الاحتمالات أو درجة الخطورة HIGH.
  • person_generation: السماح للنموذج بإنشاء صور لأشخاص تشير رسالة الأشكال البيانية القيم التالية متاحة:

    • "dont_allow": حظر إنشاء صور لأشخاص
    • "allow_adult": إنشاء صور للبالغين وليس للأطفال

الخطوات التالية

يمكن استخدام الصورة 3 في Gemini API قبل إطلاقها. يُرجى متابعتنا لتلقّي إشعارات حول حالة الميزة.