دليل إنشاء الصور

تتيح لك مهمة MediaPipe Image Generator إنشاء صور بناءً على طلب نصي. تستخدم هذه المهمة نموذج تحويل النص إلى صورة لإنشاء صور باستخدام تقنيات الانتشار.

تقبل المهمة مطالبة نصية كإدخال، بالإضافة إلى صورة شرطية اختيارية يمكن أن يعززها النموذج واستخدامه كمرجع للإنشاء. للحصول على مزيد من المعلومات حول الإنشاء المشروط لتحويل النص إلى صورة، يمكنك الاطّلاع على المكوّنات الإضافية لانتشار النص على الجهاز فقط لإنشاء شروط تحويل النص إلى صورة.

بإمكان "منشئ الصور" أيضًا إنشاء صور بناءً على مفاهيم محدّدة يتم تقديمها للنموذج أثناء التدريب أو إعادة التدريب. لمزيد من المعلومات، يُرجى الاطّلاع على التخصيص باستخدام LoRA.

البدء

ابدأ في استخدام هذه المهمة باتباع أحد أدلة التنفيذ هذه للنظام الأساسي المستهدف. ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال التنفيذ الأساسي لهذه المهمة، مع أمثلة على التعليمات البرمجية التي تستخدم نموذجًا افتراضيًا وخيارات الضبط المقترحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات وخيارات الضبط لهذه المهمة.

الميزات

يمكنك استخدام "منشئ الصور" لتنفيذ ما يلي:

  1. إنشاء تحويل النص إلى صورة - يمكنك إنشاء صور من خلال إدخال طلب نصي.
  2. إنشاء الصور باستخدام صور الحالات - يمكنك إنشاء صور باستخدام طلب نصي وصورة مرجعية. يستخدم "منشئ الصور" صور الحالات بطرق تشبه ControlNet.
  3. إنشاء الصور باستخدام معاملات ترجيح LoRA - يمكنك إنشاء صور لأشخاص وكائنات وأنماط محدّدة من خلال طلب نصي باستخدام قيم ترجيح مخصّصة للنماذج.
إدخالات المهام نتائج المهام
يقبل "منشئ الصور" الإدخالات التالية:
  • طلب نصي
  • المحتوى الأساسي
  • عدد التكرارات التوليدية
  • اختياري: صورة الشرط
يخرج "منشئ الصور" النتائج التالية:
  • تم إنشاء صورة استنادًا إلى الإدخالات.
  • اختياري: لقطات متكررة للصورة التي تم إنشاؤها

خيارات الإعدادات

تتضمن هذه المهمة خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة
imageGeneratorModelDirectory دليل نموذج منشئ الصور الذي يخزِّن أوزان النموذج. PATH
loraWeightsFilePath لضبط المسار على ملف الأوزان LoRA. اختيارية ولا تنطبق إلا إذا تم تخصيص النموذج من خلال LoRA. PATH
errorListener لضبط أداة معالجة الأخطاء الاختيارية. N/A

تدعم المهمة أيضًا نماذج المكوّنات الإضافية، التي تتيح للمستخدمين تضمين صور الحالات في إدخال المهمة، والتي يمكن أن يعززها النموذج الأساسي واستخدامه كمرجع للإنشاء. يمكن أن تكون صور الحالة هذه معالم الوجه ومخططات الحواف وتقديرات العمق، التي يستخدمها النموذج كسياق ومعلومات إضافية لإنشاء الصور.

عند إضافة نموذج مكوِّن إضافي إلى نموذج الأساس، يمكنك أيضًا تهيئة خيارات المكوِّن الإضافي. يستخدم المكوّن الإضافي لمعالم الوجه faceConditionOptions، ويستخدم المكوّن الإضافي Canny Edge edgeConditionOptions، والمكوّن الإضافي Depth يستخدم depthConditionOptions.

خيارات حواف Canny

اضبط الخيارات التالية في edgeConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
threshold1 الحد الأول لإجراء الهستيرات. Float 100
threshold2 الحد الثاني لإجراء التوتر. Float 200
apertureSize حجم فتحة العدسة لعامل Sobel. يتراوح النطاق النموذجي بين 3 و7. Integer 3
l2Gradient تحدّد هذه السمة ما إذا تم استخدام قاعدة L2 لاحتساب مقدار تدرّج الصورة، بدلاً من القاعدة التلقائية L1. BOOLEAN False
EdgePluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

لمزيد من المعلومات حول آلية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد حافة Canny.

خيارات المعالم المصنَّفة حسب الوجه

اضبط الخيارات التالية في faceConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
minFaceDetectionConfidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة ليتم اعتبار ميزة "التعرّف على الوجوه" ناجحة. Float [0.0,1.0] 0.5
minFacePresenceConfidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة لنتيجة تواجد الوجه في ميزة "رصد معالِم الوجه". Float [0.0,1.0] 0.5
faceModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار للنموذج الذي ينشئ صورة الشرط. كائن "BaseOptions" N/A
FacePluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

لمزيد من المعلومات حول آلية عمل خيارات الإعداد هذه، يمكنك الاطّلاع على مهمة Facemarker.

خيارات العمق

اضبط الخيارات التالية في depthConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
depthModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار للنموذج الذي ينشئ صورة الشرط. كائن "BaseOptions" N/A
depthPluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

النماذج

يتطلب "منشئ الصور" استخدام نموذج أساسي، وهو نموذج ذكاء اصطناعي لتحويل النص إلى صورة يستخدم تقنيات الانتشار لإنشاء صور جديدة. النماذج الأساسية المدرجة في هذا القسم هي نماذج خفيفة الوزن تم تحسينها للتشغيل على الهواتف الذكية المتطورة.

نماذج المكوّنات الإضافية اختيارية وتتكامل مع النماذج الأساسية، ما يتيح للمستخدمين توفير صورة حالة إضافية مع طلب نصي لإنشاء صور أكثر تحديدًا. يعد تخصيص نماذج الأساس باستخدام أوزان LoRA خيارًا لتعليم نموذج الأساس حول مفهوم معين، مثل كائن أو شخص أو نمط، وحقنها في الصور التي يتم إنشاؤها.

نماذج الأساس

النماذج الأساسية عبارة عن نماذج انتشار كامنة لتحويل النص إلى صورة تنشئ صورًا من مطالبة نصية. يتطلب "منشئ الصور" أن يتطابق النموذج الأساسي مع تنسيق النموذج runwayml/stable-diffusion-v1-5 EMA-only، استنادًا إلى النموذج التالي:

تتوافق النماذج الأساسية التالية أيضًا مع "منشئ الصور":

بعد تنزيل نموذج الأساس، استخدِم image_generator_converter لتحويل النموذج إلى التنسيق المناسب على الجهاز فقط لأداة إنشاء الصور.

تثبيت التبعيات الضرورية:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

شغِّل النص البرمجي convert.py:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

نماذج المكوّنات الإضافية

تم تطوير نماذج المكوّنات الإضافية في هذا القسم بواسطة Google ويجب استخدامها مع النموذج الأساسي. تمكّن نماذج المكوّنات الإضافية "منشئ الصور" من قبول صورة شرط مع طلب نصي كإدخال، مما يتيح لك التحكم في بنية الصور التي يتم إنشاؤها. وتوفِّر نماذج المكوّنات الإضافية إمكانات مماثلة لإمكانات ControlNet، مع بنية جديدة مخصَّصة للانتشار على الجهاز.

يجب تحديد نماذج المكوّنات الإضافية في الخيارات الأساسية وقد تتطلب منك تنزيل ملفات نماذج إضافية. ولكل مكوّن إضافي متطلبات فريدة لصورة الحالة، والتي يمكن إنشاؤها بواسطة "منشئ الصور".

المكوّن الإضافي Canny Edge

يقبل المكوّن الإضافي Canny Edge صورة شرطية توضّح الحواف المقصودة للصورة التي تم إنشاؤها. يستخدم نموذج الأساس الحواف التي تشير إليها صورة الشرط، وينشئ صورة جديدة بناءً على المطالبة النصية. يحتوي "منشئ الصور" على إمكانات مدمجة لإنشاء صور الشروط، ولا يتطلّب سوى تنزيل نموذج المكوِّن الإضافي.

تنزيل المكوّن الإضافي Canny Edge

يحتوي المكوّن الإضافي Canny Edge على خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
threshold1 الحد الأول لإجراء الهستيرات. Float 100
threshold2 الحد الثاني لإجراء التوتر. Float 200
apertureSize حجم فتحة العدسة لعامل Sobel. يتراوح النطاق النموذجي بين 3 و7. Integer 3
l2Gradient تحدّد هذه السمة ما إذا تم استخدام قاعدة L2 لاحتساب مقدار تدرّج الصورة، بدلاً من القاعدة التلقائية L1. BOOLEAN False
EdgePluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

لمزيد من المعلومات حول آلية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد حافة Canny.

المكوّن الإضافي "التعرّف على الوجه"

يقبل المكوّن الإضافي "Facemark" (التعرّف على الوجه) المخرجات من عنصر Face Landmarker كصورة الشرط. توفر "علامة تحديد الوجه" شبكة مفصّلة للوجه تشمل وجه واحدًا يوضّح تواجد ملامح الوجه وموقعها. يستخدم نموذج الأساس عملية تخطيط الوجه المضمّنة في صورة الحالة، ثم تنشئ وجهًا جديدًا فوق الشبكة المتداخلة.

تنزيل المكوّن الإضافي لمعلَم الوجه

يتطلب المكوّن الإضافي لمعلَم الوجه أيضًا مجموعة نموذج Face Marker لإنشاء صورة الشرط. حزمة النموذج هذه هي الحزمة نفسها التي تستخدمها مهمة Faceتقدمer.

تنزيل حزمة نموذج معالم الوجه

يحتوي المكوّن الإضافي "التعرّف على الوجه" على خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
minFaceDetectionConfidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة ليتم اعتبار ميزة "التعرّف على الوجوه" ناجحة. Float [0.0,1.0] 0.5
minFacePresenceConfidence تمثّل هذه السمة الحد الأدنى لدرجة الثقة لنتيجة تواجد الوجه في ميزة "رصد معالِم الوجه". Float [0.0,1.0] 0.5
faceModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار للنموذج الذي ينشئ صورة الشرط. كائن "BaseOptions" N/A
FacePluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

لمزيد من المعلومات حول آلية عمل خيارات الإعداد هذه، يمكنك الاطّلاع على مهمة Facemarker.

المكوّن الإضافي لعرض التفاصيل

يقبل المكون الإضافي العمق صورة الشرط التي تحدد العمق الأحادي للكائن. يستخدم النموذج الأساسي صورة الشرط لاستنتاج حجم وعمق العنصر الذي سيتم إنشاؤه، ثم ينشئ صورة جديدة استنادًا إلى الطلب النصي.

تنزيل المكوّن الإضافي Depth

يتطلب المكوّن الإضافي "العمق" أيضًا نموذج تقدير العمق لإنشاء صورة الحالة.

تنزيل نموذج تقدير العمق

يحتوي المكوّن الإضافي للعمق على خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة التلقائية
depthModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار للنموذج الذي ينشئ صورة الشرط. كائن "BaseOptions" N/A
depthPluginModelBaseOptions تمثّل هذه السمة الكائن BaseOptions الذي يحدّد المسار لنموذج المكوِّن الإضافي. كائن "BaseOptions" N/A

التخصيص باستخدام LoRA

يؤدي تخصيص نموذج باستخدام LoRA إلى تفعيل "منشئ الصور" من إنشاء الصور استنادًا إلى مفاهيم معيّنة يتم تحديدها من خلال رموز مميّزة فريدة أثناء التدريب. باستخدام ترجيحات LoRA الجديدة بعد التدريب، يمكن للنموذج إنشاء صور للمفهوم الجديد عند تحديد الرمز المميز في المطالبة النصية.

يتطلب إنشاء ترجيحات LoRA تدريب نموذج أساسي على صور كائن أو شخص أو نمط معين، مما يمكّن النموذج من التعرف على المفهوم الجديد وتطبيقه عند إنشاء الصور. إذا كنت تقوم بإنشاء أوزان LoRa لإنشاء صور لأشخاص ووجوه محددة، فاستخدم فقط هذا الحل على وجهك أو وجوه الأشخاص الذين منحوك الإذن للقيام بذلك.

وفي ما يلي ناتج نموذج مخصّص تم تدريبه على صور أباريق الشاي من مجموعة بيانات DreamBooth، باستخدام الرمز المميّز "monadikos Teآراء":

طلب: إبريق شاي "موناديكوس" بجانب مرآة

استلم النموذج المخصص الرمز المميز في الطلب وحقن فيه إبريق شاي تعلم كيفية رسمه من أوزان LoRA، ووضع الصورة بجانب المرآة حسب الطلب.

LoRA with Vertex AI

لمزيد من المعلومات، يُرجى الاطّلاع على دليل التخصيص الذي يستخدم نموذج Garden على Vertex AI لتخصيص نموذج من خلال تطبيق قيم ترجيح LoRA على نموذج الأساس.