Tugas Generator Gambar MediaPipe memungkinkan Anda membuat gambar berdasarkan perintah teks. Ini menggunakan model teks ke gambar untuk menghasilkan gambar menggunakan teknik difusi.
Tugas ini menerima perintah teks sebagai input, bersama dengan gambar kondisi opsional yang dapat ditambah dan digunakan model sebagai referensi pembuatan. Untuk info selengkapnya tentang pembuatan teks ke gambar yang dikondisikan, lihat Plugin difusi di perangkat untuk teks ke gambar yang dikondisikan pembuatan teks.
Generator Gambar juga dapat membuat gambar berdasarkan konsep tertentu yang diberikan pada model selama pelatihan atau pelatihan ulang. Untuk informasi selengkapnya, lihat menyesuaikan dengan kebijakan privasi.
Mulai
Mulai gunakan tugas ini dengan mengikuti salah satu panduan implementasi berikut untuk platform target. Panduan khusus platform ini memandu Anda memahami untuk implementasi tugas ini, dengan contoh kode yang menggunakan model default dan opsi konfigurasi yang disarankan:
- Android - Contoh kode - Panduan
- Menyesuaikan dengan LoRA - Kode contoh - Colab
Detail tugas
Bagian ini menjelaskan kemampuan, input, output, dan konfigurasi opsi untuk tugas ini.
Fitur
Anda dapat menggunakan Generator Gambar untuk menerapkan hal berikut:
- Pembuatan teks ke gambar - Buat gambar dengan perintah teks.
- Pembuatan gambar dengan gambar kondisi - Membuat gambar dengan teks prompt, dan gambar referensi. Generator Gambar menggunakan gambar kondisi dengan cara mirip dengan ControlNet.
- Pembuatan gambar dengan bobot LoRA - Membuat gambar orang tertentu, objek, dan gaya dengan prompt teks menggunakan bobot model yang disesuaikan.
Input tugas | Output tugas |
---|---|
Generator Gambar menerima input berikut:
|
Generator Gambar menghasilkan hasil berikut:
|
Opsi konfigurasi
Tugas ini memiliki opsi konfigurasi berikut:
Nama Opsi | Deskripsi | Rentang Nilai |
---|---|---|
imageGeneratorModelDirectory |
Direktori model generator gambar yang menyimpan bobot model. | PATH |
loraWeightsFilePath |
Menetapkan jalur ke file bobot LoRA. Opsional dan hanya berlaku jika model telah disesuaikan dengan LoRA. | PATH |
errorListener |
Menetapkan pemroses error opsional. | N/A |
Tugas ini juga mendukung model plugin, yang memungkinkan pengguna menyertakan gambar kondisi dalam input tugas, yang dapat ditambahkan dan digunakan oleh model dasar sebagai referensi untuk pembuatan. Gambar kondisi ini bisa menjadi {i>landmark<i} wajah, garis tepi, dan estimasi kedalaman, yang digunakan model sebagai konteks dan informasi tambahan untuk membuat gambar.
Saat menambahkan model plugin ke model dasar, konfigurasikan juga plugin
lainnya. Plugin Face landmark menggunakan faceConditionOptions
, edge Canny
plugin ini menggunakan edgeConditionOptions
, sedangkan plugin Depth menggunakan
depthConditionOptions
.
Opsi edge Canny
Konfigurasi opsi berikut di edgeConditionOptions
.
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
threshold1 |
Ambang batas pertama untuk prosedur histeresis. | Float |
100 |
threshold2 |
Ambang batas kedua untuk prosedur histeresis. | Float |
200 |
apertureSize |
Ukuran bukaan untuk operator Sobel. Rentang biasanya antara 3-7. | Integer |
3 |
l2Gradient |
Apakah norma L2 digunakan untuk menghitung besarnya gradien gambar, alih-alih norma L1 {i>default<i}. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Untuk informasi selengkapnya tentang cara kerja opsi konfigurasi ini, lihat Pendeteksi tepi yang lucu.
Opsi penanda wajah
Konfigurasi opsi berikut di faceConditionOptions
.
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
minFaceDetectionConfidence |
Skor keyakinan minimum deteksi wajah yang akan dianggap berhasil. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
Skor keyakinan minimum untuk kehadiran wajah skor dalam deteksi penanda wajah. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model yang membuat gambar kondisi. |
Objek BaseOptions |
N/A |
FacePluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Untuk informasi selengkapnya tentang cara kerja opsi konfigurasi ini, lihat Tugas Face Landmarker.
Opsi kedalaman
Konfigurasi opsi berikut di depthConditionOptions
.
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
depthModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model yang membuat gambar kondisi. |
Objek BaseOptions |
N/A |
depthPluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Model
Generator Gambar memerlukan model dasar, yaitu model AI teks ke gambar yang menggunakan teknik difusi untuk menghasilkan gambar baru. Model dasar yang tercantum di bagian ini adalah model ringan yang dioptimalkan untuk berjalan di perangkat di ponsel pintar.
Model plugin bersifat opsional dan melengkapi model dasar, sehingga memungkinkan pengguna untuk menyediakan gambar kondisi tambahan beserta prompt teks, pembuatan gambar yang lebih spesifik. Menyesuaikan model dasar menggunakan LoRA bobot adalah opsi yang mengajarkan model dasar tentang konsep tertentu, seperti objek, orang, atau gaya, lalu memasukkannya ke dalam gambar yang dihasilkan.
Model dasar
Model dasar adalah model difusi teks ke gambar laten yang menghasilkan
gambar dari prompt teks. Generator Gambar mengharuskan model dasar
cocokkan dengan format model runwayml/stable-diffusion-v1-5 EMA-only
, berdasarkan
model berikut:
Model dasar berikut juga kompatibel dengan Generator Gambar:
Setelah mendownload model dasar, gunakan model image_generator_converter mengonversi model ke dalam format di perangkat yang sesuai untuk Generator Gambar.
Instal dependensi yang diperlukan:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
Jalankan
convert.py
skrip:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
Model plugin
Model plugin di bagian ini dikembangkan oleh Google dan harus digunakan di dengan model dasar. Model plugin mengaktifkan Pembuat Gambar untuk menerima gambar kondisi bersama dengan prompt teks sebagai input, yang memungkinkan Anda mengontrol struktur gambar yang dihasilkan. Model plugin menyediakan kemampuan yang mirip dengan ControlNet, dengan arsitektur baru khusus untuk difusi di perangkat.
Model plugin harus ditentukan dalam opsi dasar dan mungkin mengharuskan Anda untuk mengunduh file model tambahan. Setiap plugin memiliki persyaratan unik untuk gambar kondisi, yang dapat dibuat oleh Generator Gambar.
Plugin Canny Edge
Plugin Canny Edge menerima gambar kondisi yang menguraikan tepi yang diinginkan dari gambar yang dihasilkan. Model dasar menggunakan tepi yang tersirat oleh gambar kondisi, dan menghasilkan gambar baru berdasarkan perintah teks. Tujuan Generator Gambar berisi kemampuan bawaan untuk membuat gambar kondisi, dan hanya memerlukan download model plugin.
Plugin Canny Edge berisi opsi konfigurasi berikut:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
threshold1 |
Ambang batas pertama untuk prosedur histeresis. | Float |
100 |
threshold2 |
Ambang batas kedua untuk prosedur histeresis. | Float |
200 |
apertureSize |
Ukuran bukaan untuk operator Sobel. Rentang biasanya antara 3-7. | Integer |
3 |
l2Gradient |
Apakah norma L2 digunakan untuk menghitung besarnya gradien gambar, alih-alih norma L1 {i>default<i}. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Untuk informasi selengkapnya tentang cara kerja opsi konfigurasi ini, lihat Pendeteksi tepi yang lucu.
Plugin Face Landmark
Plugin Face Landmark menerima output dari MediaPipe Face Landmarker sebagai gambar kondisi. Wajah Landmarker menyediakan mesh wajah mendetail dari satu wajah, yang memetakan kehadiran dan lokasi fitur wajah. Model dasar menggunakan perawatan pemetaan tersirat oleh gambar kondisi, dan menghasilkan wajah baru di atas mesh.
Download plugin Wajah terkenal
Plugin Face Landmark juga memerlukan model Face Landmarker paket untuk membuat gambar kondisi. Ini paket model adalah paket yang sama dengan yang digunakan oleh Face Landmarker.
Download Paket model penanda wajah
Plugin Face Landmark berisi opsi konfigurasi berikut:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
minFaceDetectionConfidence |
Skor keyakinan minimum deteksi wajah yang akan dianggap berhasil. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
Skor keyakinan minimum untuk kehadiran wajah skor dalam deteksi penanda wajah. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model yang membuat gambar kondisi. |
Objek BaseOptions |
N/A |
FacePluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Untuk informasi selengkapnya tentang cara kerja opsi konfigurasi ini, lihat Tugas Face Landmarker.
Plugin Depth
Plugin Depth menerima gambar kondisi yang menentukan kedalaman monokular objek. Model dasar menggunakan gambar kondisi untuk menyimpulkan ukuran dan kedalaman objek yang akan dibuat, dan gambar baru berdasarkan teks .
Plugin Depth juga memerlukan model estimasi Kedalaman untuk membuat kondisi gambar.
Download model estimasi Kedalaman
Plugin Depth berisi opsi konfigurasi berikut:
Nama Opsi | Deskripsi | Rentang Nilai | Nilai Default |
---|---|---|---|
depthModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model yang membuat gambar kondisi. |
Objek BaseOptions |
N/A |
depthPluginModelBaseOptions |
Objek BaseOptions yang menetapkan jalur
untuk model plugin. |
Objek BaseOptions |
N/A |
Penyesuaian dengan LoRA
Menyesuaikan model dengan LoRA dapat mengaktifkan Generator Gambar untuk menghasilkan gambar berdasarkan konsep tertentu, yang yang diidentifikasi oleh token unik selama pelatihan. Dengan bobot LoRA baru setelah model ini dapat menghasilkan gambar konsep baru saat token ditentukan dalam prompt teks.
Pembuatan bobot LoRA memerlukan pelatihan model dasar pada gambar objek, orang, atau gaya tertentu, yang memungkinkan model mengenali dan menerapkannya saat membuat gambar. Jika Anda membuat bobot LoRa untuk buat gambar orang dan wajah tertentu, hanya gunakan solusi ini pada wajah orang-orang yang telah mengizinkan Anda untuk melakukannya.
Di bawah ini adalah output dari model kustom yang dilatih dengan gambar teapot dari set data DreamBooth, menggunakan token "monadikos teapot":
Prompt: teko monadikos di samping cermin
Model yang disesuaikan menerima token dalam perintah dan memasukkan teko yang yang dipelajari dari bobot LoRA, dan menempatkannya gambar di samping cermin seperti yang diminta dalam prompt.
Untuk informasi selengkapnya, lihat penyesuaian panduan, yang menggunakan Model Garden di Vertex AI untuk menyesuaikan model dengan menerapkan bobot LoRA ke model dasar.