تتيح لك مَهمة "منشئ صور MediaPipe" إنشاء صور استنادًا إلى موجّه نصي. هذا النمط نموذج تحويل النص إلى صورة لإنشاء صور باستخدام تقنيات الانتشار.
تقبل المهمة طلبًا نصيًا كإدخال، بالإضافة إلى صورة شرط اختيارية التي يمكن للنموذج تعزيزها واستخدامها كمرجع للإنشاء لمزيد من المعلومات على ميزة "تحويل النص إلى صورة" المشروطة، يمكنك الاطّلاع على المكوّنات الإضافية للتوزيع على الجهاز فقط النص المشروط إلى صورة الجيل.
منشئ الصور إنشاء صور أيضًا بناءً على مفاهيم محددة يتم تقديمها إلى النموذج أثناء التدريب أو إعادة التدريب. لمزيد من المعلومات، راجع التخصيص باستخدام LoRA.
البدء
يمكنك بدء استخدام هذه المهمة باتّباع أحد أدلة التنفيذ التالية المنصة المستهدفة. ترشدك هذه الأدلة الخاصة بنظام التشغيل خلال تنفيذ هذه المهمة، مع أمثلة على التعليمات البرمجية التي تستخدم نموذجًا افتراضيًا خيارات الضبط المقترَحة:
- Android - مثال على الرمز - الدليل
- التخصيص باستخدام LoRA - الرموز مثال - Colab
تفاصيل المهمة
يصف هذا القسم الإمكانات والمدخلات والمخرجات والإعدادات. الخيارات لهذه المهمة.
الميزات
يمكنك استخدام "منشئ الصور" لتنفيذ ما يلي:
- إنشاء نص إلى صورة: يمكنك إنشاء صور باستخدام طلب نصي.
- إنشاء الصور باستخدام صور الشرط: يمكنك إنشاء صور تحتوي على نص. مطالبة وصورة مرجعية. يستخدم "منشئ الصور" صور الحالة بطرق مثل ControlNet.
- إنشاء الصور باستخدام مقاييس LoRA - إنشاء صور لأشخاص محددين، وكائنات وأنماط مع طلب نصي باستخدام قيم تقديرية مخصصة للنماذج.
إدخالات المهام | نتائج المهام |
---|---|
يقبل "منشئ الصور" الإدخالات التالية:
|
يُخرج "منشئ الصور" النتائج التالية:
|
خيارات الإعدادات
تتضمّن هذه المهمة خيارات الضبط التالية:
اسم الخيار | الوصف | نطاق القيمة |
---|---|---|
imageGeneratorModelDirectory |
دليل نموذج منشئ الصور الذي يخزن الأوزان للنموذج. | PATH |
loraWeightsFilePath |
لتعيين المسار إلى ملف ترجيحات LoRA. اختيارية ولا تسري إلا إذا تم تخصيص النموذج باستخدام LoRA. | PATH |
errorListener |
تضبط هذه السياسة أداة معالجة للأخطاء اختيارية. | N/A |
تتوافق المهمة أيضًا مع نماذج المكوّنات الإضافية، والتي تتيح للمستخدمين تضمين صور الحالات. في إدخال المهمة، والذي يمكن لنموذج الأساس تعزيزه واستخدامه كمرجع لصناعة المحتوى. يمكن أن تكون صور الحالة هذه معالم الوجه ومخططات الحافة وتقديرات العمق، والتي يستخدمها النموذج كسياق ومعلومات إضافية لإنشاء الصور.
عند إضافة نموذج مكوّن إضافي إلى نموذج الأساس، يمكنك أيضًا ضبط المكوّن الإضافي
الخيارات. يستخدم المكوّن الإضافي لمعلم الوجه faceConditionOptions
، حافة Canny
يستخدم المكون الإضافي edgeConditionOptions
، ويستخدم المكون الإضافي Depth
depthConditionOptions
خيارات الحافة المحترفة
يمكنك ضبط الخيارات التالية في edgeConditionOptions
.
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
threshold1 |
الحد الأول لإجراء التدخل. | Float |
100 |
threshold2 |
الحد الثاني لإجراء التقلبات. | Float |
200 |
apertureSize |
حجم فتحة العدسة لمشغّل Sobel. يتراوح النطاق المعتاد بين 3 و7 ساعات. | Integer |
3 |
l2Gradient |
وسواء تم استخدام معيار L2 لحساب حجم تدرج الصورة، بدلاً من المعيار الافتراضي L1. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد الحافة الخارقة
خيارات معالم الوجه
يمكنك ضبط الخيارات التالية في faceConditionOptions
.
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
minFaceDetectionConfidence |
الحد الأدنى لنتيجة الثقة لرصد الوجوه تُعد ناجحة. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
الحد الأدنى لدرجة الثقة للتواجد بالوجه الجودة في اكتشاف معالِم الوجه. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
للنموذج الذي ينشئ صورة الحالة. |
عنصر واحد (BaseOptions ) |
N/A |
FacePluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على مهمة "أداة التعرّف على الوجه"
خيارات العمق
يمكنك ضبط الخيارات التالية في depthConditionOptions
.
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
depthModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
للنموذج الذي ينشئ صورة الحالة. |
عنصر واحد (BaseOptions ) |
N/A |
depthPluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
النماذج
يتطلب "منشئ الصور" نموذج أساس، وهو نموذج الذكاء الاصطناعي لتحويل النص إلى صورة. التي تستخدم تقنيات الانتشار لتوليد صور جديدة. نماذج الأساس الواردة في هذا القسم عبارة عن طُرز خفيفة الوزن ومحسّنة للتشغيل على الأجهزة المتطورة والهواتف الذكية.
تعتبر نماذج المكونات الإضافية اختيارية وتكملة النماذج التأسيسية، وتتيح توفير صورة إضافية للشرط مع طلب نصي، لإنشاء صور أكثر تحديدًا تخصيص نماذج الأساس باستخدام LoRA الأوزان هي خيار يعلّم نموذج الأساس مفهومًا محددًا، مثل كائن أو شخص أو نمط، وإدخالها في الصور التي يتم إنشاؤها.
نماذج الأساس
النماذج الأساسية هي نماذج اختزال النص إلى الصورة التي تنشئ
الصور من طلب نصي. يتطلب "منشئ الصور" أن يكون نموذج الأساس
تطابق تنسيق النموذج runwayml/stable-diffusion-v1-5 EMA-only
، استنادًا إلى
النموذج التالي:
تتوافق النماذج الأساسية التالية أيضًا مع "منشئ الصور":
بعد تنزيل نموذج الأساس، استخدِم image_generator_converter لتحويل النموذج إلى التنسيق المناسب على الجهاز فقط منشئ الصور.
ثبِّت التبعيات اللازمة:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
تشغيل
convert.py
النص البرمجي:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
نماذج المكونات الإضافية
تمّ تطوير نماذج المكوّنات الإضافية الواردة في هذا القسم بواسطة Google ويجب استخدامها في إلى جانب نموذج الأساس. تتيح نماذج المكونات الإضافية لـ "منشئ الصور" قبول صورة شرطية مع مطالبة نصية كإدخال، مما يتيح لك التحكم في بنية الصور التي يتم إنشاؤها. توفر نماذج المكون الإضافي إمكانات مشابهة لـ ControlNet، بالإضافة إلى بنية جديدة مخصصة الانتشار على الجهاز فقط
يجب تحديد نماذج المكوّنات الإضافية في الخيارات الأساسية، وقد تتطلب هذه النماذج ما يلي: لتنزيل ملفات نماذج إضافية. ولكل مكوّن إضافي متطلباته الفريدة التي يمكن إنشاؤها بواسطة "منشئ الصور".
المكوّن الإضافي Canny Edge
يقبل المكوِّن الإضافي Canny Edge صورة شرط تحدد الحواف المقصودة للصورة التي تم إنشاؤها. يستخدم نموذج الأساس الحواف التي تشير إليها وتنشئ صورة جديدة بناءً على الطلب النصي. تشير رسالة الأشكال البيانية يحتوي "منشئ الصور" على إمكانات مدمجة لإنشاء صور الحالة، تنزيل نموذج المكوّن الإضافي فقط.
تنزيل المكوّن الإضافي Canny Edge
يحتوي المكوّن الإضافي Canny Edge على خيارات الإعداد التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
threshold1 |
الحد الأول لإجراء التدخل. | Float |
100 |
threshold2 |
الحد الثاني لإجراء التقلبات. | Float |
200 |
apertureSize |
حجم فتحة العدسة لمشغّل Sobel. يتراوح النطاق المعتاد بين 3 و7 ساعات. | Integer |
3 |
l2Gradient |
وسواء تم استخدام معيار L2 لحساب حجم تدرج الصورة، بدلاً من المعيار الافتراضي L1. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على أداة رصد الحافة الخارقة
المكوّن الإضافي لميزة "التعرُّف على الوجه"
يقبل المكوِّن الإضافي Face Gallery الناتج من MediaPipe Face المُعلِّم باعتباره صورة الشرط. الوجه يوفر أحد المعالم شبكة وجه تفصيلية لوجه واحد، تحدد وجود ملامح الوجه وموقعها. يستخدم نموذج الأساس التي تشير إليها صورة الحالة، وتُنشئ وجهًا جديدًا عبر الشبكة المتداخلة.
تنزيل المكوّن الإضافي للتعرف على الوجه
يتطلب المكوّن الإضافي لمعلّم الوجه أيضًا نموذج "أداة التعرّف على الوجه". الحزم لإنشاء صورة الحالة. هذا النمط حزمة النموذج هي الحزمة نفسها التي يستخدمها معلَم الوجه.
تنزيل حزمة نموذج التعرّف على الوجه
يحتوي مكوّن "التعرُّف على الوجه" الإضافي على خيارات الضبط التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
minFaceDetectionConfidence |
الحد الأدنى لنتيجة الثقة لرصد الوجوه تُعد ناجحة. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
الحد الأدنى لدرجة الثقة للتواجد بالوجه الجودة في اكتشاف معالِم الوجه. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
للنموذج الذي ينشئ صورة الحالة. |
عنصر واحد (BaseOptions ) |
N/A |
FacePluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
لمزيد من المعلومات حول كيفية عمل خيارات الضبط هذه، يمكنك الاطّلاع على مهمة "أداة التعرّف على الوجه"
المكوّن الإضافي العمق
يقبل المكوِّن الإضافي للعمق صورة شرط تحدد العمق الأحادي كائن. يستخدم نموذج الأساس صورة الحالة لاستنتاج الحجم عمق العنصر الذي سيتم إنشاؤه، وينشئ صورة جديدة استنادًا إلى النص مطالبة.
يتطلب المكوّن الإضافي العمق أيضًا نموذج تقدير العمق لإنشاء الشرط .
يحتوي المكوّن الإضافي العمق على خيارات الضبط التالية:
اسم الخيار | الوصف | نطاق القيمة | القيمة الافتراضية |
---|---|---|---|
depthModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
للنموذج الذي ينشئ صورة الحالة. |
عنصر واحد (BaseOptions ) |
N/A |
depthPluginModelBaseOptions |
كائن BaseOptions الذي يضبط المسار
لنموذج المكون الإضافي. |
عنصر واحد (BaseOptions ) |
N/A |
التخصيص باستخدام LoRA
يمكن أن يؤدي تخصيص نموذج باستخدام LoRA إلى تفعيل أداة إنشاء الصور لإنشاء الصور استنادًا إلى مفاهيم محددة، وهي المحددة برموز مميزة فريدة أثناء التدريب. مع أوزان LoRA الجديدة بعد يمكن للنموذج إنشاء صور للمفهوم الجديد عند وصول الرمز في المطالبة النصية.
يتطلب إنشاء أوزان LoRA تدريب نموذج أساسي على صور لكائن أو شخص أو نمط معيّن، ما يتيح للنموذج التعرّف على العنصر الجديد المفهوم وتطبيقه عند إنشاء الصور. إذا كنت تقوم بإنشاء ترجيحات LoRa إنشاء صور لأشخاص محددين ووجوه محددة، استخدم هذا الحل فقط على أو وجوه الأشخاص الذين منحكوا الإذن بذلك.
وفي ما يلي ناتج النموذج المخصص المُدرَّب على صور أباريق شاي من مجموعة بيانات DreamBooth، باستخدام الرمز المميز " إبريق شاي monadikos":
طلب: إبريق شاي monadikos بجانب مرآة
استلم النموذج المخصص الرمز المميز في الطلب ودخل إبريق شاي تعلمت أن يتم التصوير من أوزان LoRA، وتضعها بجانب الصورة النسخ المطابق كما هو مطلوب في المطالبة.
لمزيد من المعلومات، راجع قسم التخصيص أو الدليل التي تستخدم نماذج حديقة على Vertex AI لتخصيص أي نموذج من خلال تطبيق ترجيحات LoRA على نموذج أساس.