המשימה 'מחולל תמונות של MediaPipe' מאפשרת לכם ליצור תמונות על סמך הנחיה בטקסט. הזה משתמשת במודל של טקסט לתמונה כדי ליצור תמונות בשיטות דיפוזיה.
המשימה תקבל הנחיית טקסט כקלט, יחד עם תמונת מצב אופציונלית שהמודל יכול להרחיב ולהשתמש בהם כחומר עזר ליצירה. למידע נוסף על ליצירה מותנית של טקסט לתמונה, ראה יישומי פלאגין של דיפוזיה במכשיר טקסט לתמונה מותנית ליצירת בינה מלאכותית גנרטיבית.
מחולל תמונות יכול גם ליצור תמונות לפי קונספטים ספציפיים שסופקו למודל או אימון מחדש. מידע נוסף זמין במאמר התאמה אישית באמצעות LoRA.
תחילת העבודה
כדי להתחיל להשתמש במשימה הזאת תוכלו להיעזר באחד ממדריכי ההטמעה הבאים: פלטפורמת היעד. המדריכים האלה, שספציפיים לפלטפורמה, ידריכו אותך במשימה הזאת, עם דוגמאות קוד שמשתמשות במודל ברירת מחדל אפשרויות הגדרה מומלצות:
- Android – קוד לדוגמה – מדריך
- התאמה אישית באמצעות LoRA – קוד דוגמה – Colab
פרטי המשימה
בקטע הזה מתוארים היכולות, הקלט, הפלט וההגדרות האישיות לביצוע המשימה הזו.
תכונות
אפשר להשתמש ב'מחולל התמונות' כדי להטמיע את הדברים הבאים:
- יצירת טקסט לתמונה – יצירת תמונות באמצעות הנחיית טקסט.
- יצירת תמונות עם תמונות תנאי – יצירת תמונות עם טקסט ותמונה עזר. הכלי ליצירת תמונות משתמש בתמונות של תנאי בדרכים בדומה ל-ControlNet.
- יצירת תמונות עם משקולות LoRA – יצירת תמונות של אנשים ספציפיים, אובייקטים וסגנונות עם הנחיה טקסטואלית באמצעות משקולות מודלים מותאמים אישית.
קלט למשימות | הפלט של המשימות |
---|---|
מחולל התמונות מקבל את פרטי הקלט הבאים:
|
'מחולל התמונות' מפיק את התוצאות הבאות:
|
אפשרויות הגדרות אישיות
המשימה הזו כוללת את אפשרויות ההגדרה האלה:
שם האפשרות | תיאור | טווח ערכים |
---|---|---|
imageGeneratorModelDirectory |
ספריית המודלים של מחולל התמונות שמאחסנת את משקלי המודל. | PATH |
loraWeightsFilePath |
הגדרת הנתיב לקובץ המשקולות LoRA. אופציונלי ורלוונטי רק אם שהמודל הותאם אישית באמצעות LoRA. | PATH |
errorListener |
הגדרת האזנה לשגיאות אופציונלית. | N/A |
המשימה תומכת גם במודלים של יישומי פלאגין, שמאפשרים למשתמשים לכלול תמונות של תנאים בקלט המשימה, שבו מודל הבסיס יכול להרחיב ולהשתמש ליצירת שפה, תמונות המצב האלה יכולות להיות ציוני דרך של פנים, קווי מתאר של קצוות הערכות עומק, שבהן המודל משתמש כהקשר נוסף וכמידע נוסף כדי היא יצירת תמונות.
כשמוסיפים מודל פלאגין למודל הבסיס, צריך גם להגדיר את הפלאגין
אפשרויות. בפלאגין של מאפיין זיהוי הפנים נעשה שימוש ב-faceConditionOptions
, הקצה של Canny
הפלאגין משתמש ב-edgeConditionOptions
, ופלאגין העומק משתמש
depthConditionOptions
.
אפשרויות קצה Canny
צריך להגדיר את האפשרויות הבאות ב-edgeConditionOptions
.
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
threshold1 |
הסף הראשון להליך ההיסטרזה. | Float |
100 |
threshold2 |
הסף השני של הליך ההיסטרזה. | Float |
200 |
apertureSize |
גודל הצמצם לאופרטור Sobel. הטווח האופייני הוא בין 3 ל-7. | Integer |
3 |
l2Gradient |
אם נורמה L2 משמשת לחישוב הגודל של השיפוע של התמונה, במקום נורמת ברירת המחדל L1. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
למידע נוסף על אופן הפעולה של אפשרויות ההגדרה האלה, ראו מזהה קצוות קומפקטיים.
אפשרויות של זיהוי פנים
צריך להגדיר את האפשרויות הבאות ב-faceConditionOptions
.
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
minFaceDetectionConfidence |
רמת הסמך המינימלית הנדרשת לזיהוי הפנים נחשב למוצלח. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
ציון הסמך המינימלי של נוכחות הפנים בזיהוי הפנים. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל שיוצר את תמונת התנאי. |
אובייקט אחד (BaseOptions ) |
N/A |
FacePluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
למידע נוסף על אופן הפעולה של אפשרויות ההגדרה האלה, ראו את משימה לציון דרך של זיהוי פנים.
אפשרויות עומק
צריך להגדיר את האפשרויות הבאות ב-depthConditionOptions
.
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
depthModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל שיוצר את תמונת התנאי. |
אובייקט אחד (BaseOptions ) |
N/A |
depthPluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
דגמים
כדי להשתמש בכלי ליצירת תמונות נדרש מודל בסיס, שהוא מודל AI של טקסט לתמונה שמשתמשת בטכניקות דיפוזיה כדי ליצור תמונות חדשות. המודלים הבסיסיים בקטע הזה הם מודלים קלים שעברו אופטימיזציה לפעול מכשירי סמארטפון.
מודלים של יישומי פלאגין הם אופציונליים ומשלימים את המודלים הבסיסיים, וכך מאפשרים למשתמשים לספק תמונת תנאי נוספת עם הנחיית טקסט, ליצירת תמונות ספציפיות יותר. התאמה אישית של המודלים הבסיסיים באמצעות LoRA המשקולות הן אפשרות שמלמדת את המודל הבסיסי על קונספט ספציפי, כמו אובייקט, אדם או סגנון, ולהחדיר אותם לתמונות שנוצרו על ידי AI.
למודלים בסיסיים
המודלים הבסיסיים הם מודלים של דיפוזיה לטנטיים של טקסט לתמונה,
על סמך הנחיה בטקסט. באמצעות 'מחולל התמונות' נדרש מודל הבסיס
תואם לפורמט של המודל runwayml/stable-diffusion-v1-5 EMA-only
, על סמך
מודל הבא:
גם המודלים הבסיסיים הבאים תואמים ל'מחולל התמונות':
אחרי שמורידים מודל בסיס, משתמשים image_generator_converter כדי להמיר את המודל לפורמט המתאים במכשיר, כלי ליצירת תמונות.
מתקינים את הרכיבים התלויים הנדרשים:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
להריץ את
convert.py
סקריפט:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
מודלים של יישומי פלאגין
המודלים של יישומי הפלאגין בקטע הזה פותחו על ידי Google וחובה להשתמש בהם בשילוב עם מודל בסיס. מודלים של יישומי פלאגין מאפשרים ל'מחולל התמונות' לקבל תמונת תנאי יחד עם הנחיית טקסט כקלט, כדי שתוכלו לשלוט במבנה של התמונות שנוצרות. המודלים של יישומי הפלאגין מספקים יכולות שדומות ל-ControlNet, עם ארכיטקטורה חדשנית במיוחד עבור דיפוזיה במכשיר.
יש לציין את הדגמים של יישומי הפלאגין באפשרויות הבסיס וייתכן שתצטרכו להוריד קובצי מודל נוספים. לכל פלאגין יש דרישות ייחודיות עבור של התנאי הזה, שאפשר ליצור באמצעות 'מחולל התמונות'.
הפלאגין של Canny Edge
הפלאגין של Canny Edge מקבל תמונת תנאי שמתארת את הקצוות המיועדים של התמונה שנוצרה. מודל הבסיס משתמש בקצוות שמרמזים תמונה של התנאי, ויוצרת תמונה חדשה על סמך ההנחיה בטקסט. הכלי ליצירת תמונות מכיל יכולות מובנות ליצור תמונות של תנאים, דורשת רק הורדה של מודל הפלאגין.
הפלאגין של Canny Edge מכיל את אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
threshold1 |
הסף הראשון להליך ההיסטרזה. | Float |
100 |
threshold2 |
הסף השני של הליך ההיסטרזה. | Float |
200 |
apertureSize |
גודל הצמצם לאופרטור Sobel. הטווח האופייני הוא בין 3 ל-7. | Integer |
3 |
l2Gradient |
אם נורמה L2 משמשת לחישוב הגודל של השיפוע של התמונה, במקום נורמת ברירת המחדל L1. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
למידע נוסף על אופן הפעולה של אפשרויות ההגדרה האלה, ראו מזהה קצוות קומפקטיים.
הפלאגין של Face Identity
הפלאגין Face Identity מקבל את הפלט מ-MediaPipe Face ציון דרך בתור תמונת התנאי. הפנים Placeer מספק רשת פנים מפורטת של פנים בודדות, שממפה את הנוכחות של תווי הפנים והמיקום שלהם. במודל הבסיס משתמשים מיפוי שמשתמע מתמונת התנאי, ויוצר פנים חדשות מעל הרשת.
כדי להשתמש בפלאגין של זיהוי פנים צריך גם את המודל של Face Markuper חבילה כדי ליצור את תמונת התנאי. הזה הוא אותה חבילה שבה משתמש משימה מסוג FaceAdWordser.
הורדת חבילת המודלים של זיהוי פנים
הפלאגין של Face Identity מכיל את אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
minFaceDetectionConfidence |
רמת הסמך המינימלית הנדרשת לזיהוי הפנים נחשב למוצלח. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
ציון הסמך המינימלי של נוכחות הפנים בזיהוי הפנים. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל שיוצר את תמונת התנאי. |
אובייקט אחד (BaseOptions ) |
N/A |
FacePluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
למידע נוסף על אופן הפעולה של אפשרויות ההגדרה האלה, ראו את משימה לציון דרך של זיהוי פנים.
פלאגין עומק
הפלאגין Depth מקבל תמונת תנאי שמציינת את העומק המונוקולרי של לאובייקט. מודל הבסיס משתמש בתמונת התנאי כדי להסיק את הגודל את העומק של האובייקט שרוצים ליצור, ויוצרים תמונה חדשה על סמך הטקסט .
כדי ליצור את התנאי בפלאגין העומק, צריך גם מודל להערכת עומק תמונה.
הפלאגין Depth מכיל את אפשרויות ההגדרה הבאות:
שם האפשרות | תיאור | טווח ערכים | ערך ברירת מחדל |
---|---|---|---|
depthModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל שיוצר את תמונת התנאי. |
אובייקט אחד (BaseOptions ) |
N/A |
depthPluginModelBaseOptions |
האובייקט BaseOptions שמגדיר את הנתיב
למודל יישומי הפלאגין. |
אובייקט אחד (BaseOptions ) |
N/A |
התאמה אישית באמצעות LoRA
התאמה אישית של מודל באמצעות LoRA יכולה להפעיל בכלי ליצירת תמונות, ליצירת תמונות שמבוססות על מושגים ספציפיים, שמזוהה באמצעות אסימונים ייחודיים במהלך האימון. עם משקולות LoRA החדשות אחרי אימון מסוים, המודל יכול ליצור תמונות של הקונספט החדש כשהאסימון מצוין בשורת הטקסט.
כדי ליצור משקולות LoRA צריך לאמן מודל בסיס על תמונות של אובייקט, אדם או סגנון ספציפיים, שמאפשרים למודל לזהות וליישם אותו כשיוצרים תמונות. אם אתם יוצרים משקולות LoRa ליצור תמונות של פנים או אנשים ספציפיים, צריך להשתמש בפתרון הזה רק פנים או פנים של אנשים שנתנו לכם אישור לעשות זאת.
לפניכם הפלט ממודל מותאם אישית שאומן על תמונות של בקבוקי תה מ במערך הנתונים של DreamBooth, באמצעות את האסימון 'קנקן תה של מון טיקוס':
הנחיה: קנקן תה מונאדיקוס לצד מראה
המודל המותאם אישית קיבל את האסימון בהנחיה והזריק קנקן תה היא למדה לתאר מתוך המשקולות LoRA, ומציבה את התמונה לצד לסנכרן בענן ובמחשב כפי שהתבקש בהנחיה.
למידע נוסף, עיינו בקטע התאמה אישית guide, שמשתמש Model Garden ב-Vertex AI כדי להתאים אישית מודל באמצעות החלת משקולות LoRA על מודל בסיס.