دليل إنشاء الصور

تتيح لك مَهمة "منشئ صور MediaPipe" إنشاء صور استنادًا إلى موجّه نصي. هذا النمط نموذج تحويل النص إلى صورة لإنشاء صور باستخدام تقنيات الانتشار.

تقبل المهمة طلبًا نصيًا كإدخال، بالإضافة إلى صورة شرط اختيارية التي يمكن للنموذج تعزيزها واستخدامها كمرجع للإنشاء لمزيد من المعلومات على ميزة "تحويل النص إلى صورة" المشروطة، يمكنك الاطّلاع على المكوّنات الإضافية للتوزيع على الجهاز فقط النص المشروط إلى صورة الجيل.

منشئ الصور إنشاء صور أيضًا بناءً على مفاهيم محددة يتم تقديمها إلى النموذج أثناء التدريب أو إعادة التدريب. لمزيد من المعلومات، راجع التخصيص باستخدام LoRA.

البدء

يمكنك بدء استخدام هذه المهمة باتّباع أحد أدلة التنفيذ التالية المنصة المستهدفة. ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال تنفيذ هذه المهمة، مع أمثلة على التعليمات البرمجية التي تستخدم نموذجًا افتراضيًا خيارات الضبط المقترَحة:

تفاصيل المهمة

يصف هذا القسم الإمكانات والمدخلات والمخرجات والإعدادات. الخيارات لهذه المهمة.

الميزات

يمكنك استخدام "منشئ الصور" لتنفيذ ما يلي:

  1. إنشاء نص إلى صورة: يمكنك إنشاء صور باستخدام طلب نصي.
  2. إنشاء الصور باستخدام صور الشرط: يمكنك إنشاء صور تحتوي على نص. مطالبة وصورة مرجعية. يستخدم "منشئ الصور" صور الحالة بطرق مثل ControlNet.
  3. إنشاء الصور باستخدام مقاييس LoRA - إنشاء صور لأشخاص محددين، وكائنات وأنماط مع طلب نصي باستخدام قيم تقديرية مخصصة للنماذج.
إدخالات المهام نتائج المهام
يقبل "منشئ الصور" الإدخالات التالية:
  • طلب نصي
  • المحتوى الأساسي
  • عدد التكرارات التوليدية
  • اختياري: صورة الشرط
يُخرج "منشئ الصور" النتائج التالية:
  • صورة تم إنشاؤها استنادًا إلى الإدخالات.
  • اختياري: لقطات متكررة للصورة التي تم إنشاؤها.

خيارات الإعدادات

تتضمّن هذه المهمة خيارات الضبط التالية:

اسم الخيار الوصف نطاق القيمة
imageGeneratorModelDirectory دليل نموذج منشئ الصور الذي يخزن الأوزان للنموذج. PATH
loraWeightsFilePath لتعيين المسار إلى ملف ترجيحات LoRA. اختيارية ولا تسري إلا إذا تم تخصيص النموذج باستخدام LoRA. PATH
errorListener تضبط هذه السياسة أداة معالجة للأخطاء اختيارية. N/A

تتوافق المهمة أيضًا مع نماذج المكوّنات الإضافية، والتي تتيح للمستخدمين تضمين صور الحالات. في إدخال المهمة، والذي يمكن لنموذج الأساس تعزيزه واستخدامه كمرجع لصناعة المحتوى. يمكن أن تكون صور الحالة هذه معالم الوجه ومخططات الحافة وتقديرات العمق، والتي يستخدمها النموذج كسياق ومعلومات إضافية لإنشاء الصور.

عند إضافة نموذج مكوّن إضافي إلى نموذج الأساس، يمكنك أيضًا ضبط المكوّن الإضافي الخيارات. يستخدم المكوّن الإضافي لمعلم الوجه faceConditionOptions، حافة Canny يستخدم المكون الإضافي edgeConditionOptions، ويستخدم المكون الإضافي Depth depthConditionOptions

خيارات الحافة المحترفة

يمكنك ضبط الخيارات التالية في edgeConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
threshold1 الحد الأول لإجراء التدخل. Float 100
threshold2 الحد الثاني لإجراء التقلبات. Float 200
apertureSize حجم فتحة العدسة لمشغّل Sobel. يتراوح النطاق المعتاد بين 3 و7 ساعات. Integer 3
l2Gradient وسواء تم استخدام معيار L2 لحساب حجم تدرج الصورة، بدلاً من المعيار الافتراضي L1. BOOLEAN False
EdgePluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد الحافة الخارقة

خيارات معالم الوجه

يمكنك ضبط الخيارات التالية في faceConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
minFaceDetectionConfidence الحد الأدنى لنتيجة الثقة لرصد الوجوه تُعد ناجحة. Float [0.0,1.0] 0.5
minFacePresenceConfidence الحد الأدنى لدرجة الثقة للتواجد بالوجه الجودة في اكتشاف معالِم الوجه. Float [0.0,1.0] 0.5
faceModelBaseOptions كائن BaseOptions الذي يضبط المسار للنموذج الذي ينشئ صورة الحالة. عنصر واحد (BaseOptions) N/A
FacePluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على مهمة "أداة التعرّف على الوجه"

خيارات العمق

يمكنك ضبط الخيارات التالية في depthConditionOptions.

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
depthModelBaseOptions كائن BaseOptions الذي يضبط المسار للنموذج الذي ينشئ صورة الحالة. عنصر واحد (BaseOptions) N/A
depthPluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

النماذج

يتطلب "منشئ الصور" نموذج أساس، وهو نموذج الذكاء الاصطناعي لتحويل النص إلى صورة. التي تستخدم تقنيات الانتشار لتوليد صور جديدة. نماذج الأساس الواردة في هذا القسم عبارة عن طُرز خفيفة الوزن ومحسّنة للتشغيل على الأجهزة المتطورة والهواتف الذكية.

تعتبر نماذج المكونات الإضافية اختيارية وتكملة النماذج التأسيسية، وتتيح توفير صورة إضافية للشرط مع طلب نصي، لإنشاء صور أكثر تحديدًا تخصيص نماذج الأساس باستخدام LoRA الأوزان هي خيار يعلّم نموذج الأساس مفهومًا محددًا، مثل كائن أو شخص أو نمط، وإدخالها في الصور التي يتم إنشاؤها.

نماذج الأساس

النماذج الأساسية هي نماذج اختزال النص إلى الصورة التي تنشئ الصور من طلب نصي. يتطلب "منشئ الصور" أن يكون نموذج الأساس تطابق تنسيق النموذج runwayml/stable-diffusion-v1-5 EMA-only، استنادًا إلى النموذج التالي:

تتوافق النماذج الأساسية التالية أيضًا مع "منشئ الصور":

بعد تنزيل نموذج الأساس، استخدِم image_generator_converter لتحويل النموذج إلى التنسيق المناسب على الجهاز فقط منشئ الصور.

ثبِّت التبعيات اللازمة:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

تشغيل convert.py النص البرمجي:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

نماذج المكونات الإضافية

تمّ تطوير نماذج المكوّنات الإضافية الواردة في هذا القسم بواسطة Google ويجب استخدامها في إلى جانب نموذج الأساس. تتيح نماذج المكونات الإضافية لـ "منشئ الصور" قبول صورة شرطية مع مطالبة نصية كإدخال، مما يتيح لك التحكم في بنية الصور التي يتم إنشاؤها. توفر نماذج المكون الإضافي إمكانات مشابهة لـ ControlNet، بالإضافة إلى بنية جديدة مخصصة الانتشار على الجهاز فقط

يجب تحديد نماذج المكوّنات الإضافية في الخيارات الأساسية، وقد تتطلب هذه النماذج ما يلي: لتنزيل ملفات نماذج إضافية. ولكل مكوّن إضافي متطلباته الفريدة التي يمكن إنشاؤها بواسطة "منشئ الصور".

المكوّن الإضافي Canny Edge

يقبل المكوِّن الإضافي Canny Edge صورة شرط تحدد الحواف المقصودة للصورة التي تم إنشاؤها. يستخدم نموذج الأساس الحواف التي تشير إليها وتنشئ صورة جديدة بناءً على الطلب النصي. تشير رسالة الأشكال البيانية يحتوي "منشئ الصور" على إمكانات مدمجة لإنشاء صور الحالة، تنزيل نموذج المكوّن الإضافي فقط.

تنزيل المكوّن الإضافي Canny Edge

يحتوي المكوّن الإضافي Canny Edge على خيارات الإعداد التالية:

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
threshold1 الحد الأول لإجراء التدخل. Float 100
threshold2 الحد الثاني لإجراء التقلبات. Float 200
apertureSize حجم فتحة العدسة لمشغّل Sobel. يتراوح النطاق المعتاد بين 3 و7 ساعات. Integer 3
l2Gradient وسواء تم استخدام معيار L2 لحساب حجم تدرج الصورة، بدلاً من المعيار الافتراضي L1. BOOLEAN False
EdgePluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد الحافة الخارقة

المكوّن الإضافي لميزة "التعرُّف على الوجه"

يقبل المكوِّن الإضافي Face Gallery الناتج من MediaPipe Face المُعلِّم باعتباره صورة الشرط. الوجه يوفر أحد المعالم شبكة وجه تفصيلية لوجه واحد، تحدد وجود ملامح الوجه وموقعها. يستخدم نموذج الأساس التي تشير إليها صورة الحالة، وتُنشئ وجهًا جديدًا عبر الشبكة المتداخلة.

تنزيل المكوّن الإضافي للتعرف على الوجه

يتطلب المكوّن الإضافي لمعلّم الوجه أيضًا نموذج "أداة التعرّف على الوجه". الحزم لإنشاء صورة الحالة. هذا النمط حزمة النموذج هي الحزمة نفسها التي يستخدمها معلَم الوجه.

تنزيل حزمة نموذج التعرّف على الوجه

يحتوي مكوّن "التعرُّف على الوجه" الإضافي على خيارات الضبط التالية:

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
minFaceDetectionConfidence الحد الأدنى لنتيجة الثقة لرصد الوجوه تُعد ناجحة. Float [0.0,1.0] 0.5
minFacePresenceConfidence الحد الأدنى لدرجة الثقة للتواجد بالوجه الجودة في اكتشاف معالِم الوجه. Float [0.0,1.0] 0.5
faceModelBaseOptions كائن BaseOptions الذي يضبط المسار للنموذج الذي ينشئ صورة الحالة. عنصر واحد (BaseOptions) N/A
FacePluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على مهمة "أداة التعرّف على الوجه"

المكوّن الإضافي العمق

يقبل المكوِّن الإضافي للعمق صورة شرط تحدد العمق الأحادي كائن. يستخدم نموذج الأساس صورة الحالة لاستنتاج الحجم عمق العنصر الذي سيتم إنشاؤه، وينشئ صورة جديدة استنادًا إلى النص مطالبة.

تنزيل المكوّن الإضافي Depth

يتطلب المكوّن الإضافي العمق أيضًا نموذج تقدير العمق لإنشاء الشرط .

تنزيل نموذج تقدير العمق

يحتوي المكوّن الإضافي العمق على خيارات الضبط التالية:

اسم الخيار الوصف نطاق القيمة القيمة الافتراضية
depthModelBaseOptions كائن BaseOptions الذي يضبط المسار للنموذج الذي ينشئ صورة الحالة. عنصر واحد (BaseOptions) N/A
depthPluginModelBaseOptions كائن BaseOptions الذي يضبط المسار لنموذج المكون الإضافي. عنصر واحد (BaseOptions) N/A

التخصيص باستخدام LoRA

يمكن أن يؤدي تخصيص نموذج باستخدام LoRA إلى تفعيل أداة إنشاء الصور لإنشاء الصور استنادًا إلى مفاهيم محددة، وهي المحددة برموز مميزة فريدة أثناء التدريب. مع أوزان LoRA الجديدة بعد يمكن للنموذج إنشاء صور للمفهوم الجديد عند وصول الرمز في المطالبة النصية.

يتطلب إنشاء أوزان LoRA تدريب نموذج أساسي على صور لكائن أو شخص أو نمط معيّن، ما يتيح للنموذج التعرّف على العنصر الجديد المفهوم وتطبيقه عند إنشاء الصور. إذا كنت تقوم بإنشاء ترجيحات LoRa إنشاء صور لأشخاص محددين ووجوه محددة، استخدم هذا الحل فقط على أو وجوه الأشخاص الذين منحكوا الإذن بذلك.

وفي ما يلي ناتج النموذج المخصص المُدرَّب على صور أباريق شاي من مجموعة بيانات DreamBooth، باستخدام الرمز المميز " إبريق شاي monadikos":

طلب: إبريق شاي monadikos بجانب مرآة

استلم النموذج المخصص الرمز المميز في الطلب ودخل إبريق شاي تعلمت أن يتم التصوير من أوزان LoRA، وتضعها بجانب الصورة النسخ المطابق كما هو مطلوب في المطالبة.

LoRA مع Vertex AI

لمزيد من المعلومات، راجع قسم التخصيص أو الدليل التي تستخدم نماذج حديقة على Vertex AI لتخصيص أي نموذج من خلال تطبيق ترجيحات LoRA على نموذج أساس.