Resim oluşturma kılavuzu

MediaPipe Image Generator görevi, metin istemine göre görseller oluşturmanıza olanak tanır. Bu görev, difüzyon teknikleriyle görüntüler oluşturmak için metin-resim modeli kullanır.

Görev, isteğe bağlı bir koşul resmiyle birlikte giriş olarak bir metin istemini kabul eder geliştirebileceği ve referans olarak kullanabileceği bir modeldir. Şu konularda daha fazla bilgi için: koşullandırılmış metinden görsele dönüştürme hakkında daha fazla bilgi için koşullandırılmış metin-resim oluşturma.

Resim Oluşturucu sırasında modele sağlanan belirli kavramlara dayalı görüntüler de üretebilir. yeniden eğitmektir. Daha fazla bilgi için LoRA olarak değiştirin.

Başlayın

Aşağıdaki uygulama rehberlerinden birini izleyerek bu görevi kullanmaya başlayın: yardımcı olur. Platforma özel bu kılavuzlar, Google'ın temel özelliklerini bu görevin uygulanmasında, yerine bir varsayılan model ve önerilen yapılandırma seçenekleri:

Görev ayrıntıları

Bu bölümde özellikler, girişler, çıkışlar ve yapılandırma açıklanmaktadır. bu görev için kullanılabilir.

Özellikler

Aşağıdakileri uygulamak için Resim Oluşturucu'yu kullanabilirsiniz:

  1. Metinden görsele oluşturma: Metin istemiyle resimler oluşturun.
  2. Durum resimleriyle resim üretme - Metin içeren resimler oluşturun istem ve referans resim. Resim Oluşturucu, durum resimlerini farklı şekillerde kullanır ControlNet'e benzer.
  3. LoRA ağırlıklarıyla resim oluşturma - Belirli kişilerin resimlerini, nesneleri ve stilleri, özelleştirilmiş model ağırlıklarını kullanan bir metin istemiyle görebilirsiniz.
Görev girişleri Görev çıkışları
Resim Oluşturucu şu girişleri kabul eder:
  • İstem metni
  • Tohum
  • Üretken iterasyon sayısı
  • İsteğe bağlı: durum resmi
Resim Oluşturucu aşağıdaki sonuçları verir:
  • Girişlere göre oluşturulan resim.
  • İsteğe bağlı: Oluşturulan resmin yinelemeli anlık görüntüleri.

Yapılandırma seçenekleri

Bu görev aşağıdaki yapılandırma seçeneklerine sahiptir:

Seçenek Adı Açıklama Değer Aralığı
imageGeneratorModelDirectory Model ağırlıklarının depolandığı resim oluşturucu model dizini. PATH
loraWeightsFilePath LoRA ağırlıkları dosyasının yolunu ayarlar. İsteğe bağlıdır ve yalnızca şu durumlarda geçerlidir model LoRA ile özelleştirildi. PATH
errorListener İsteğe bağlı bir hata işleyici ayarlar. N/A

Görev, kullanıcıların durum resimleri eklemesine olanak tanıyan eklenti modellerini de destekler. görev girişinde yer alır. Temel model bu bilgileri geliştirip referans olarak kullanabilir. üretiliyor. Bu durum resimleri, yüz önemli noktaları, kenar dış çizgileri ve Derinlik tahminleri: Bu tahminler, modelin gerekli bilgileri edinip ve görseller üretmenizi sağlar.

Temel modeline bir eklenti modeli eklerken, seçenekleri vardır. Face belirgin işaret eklentisi, Canny kenarı olan faceConditionOptions kullanır. eklentisi edgeConditionOptions kullanır ve Depth eklentisi depthConditionOptions.

Canny Edge seçenekleri

edgeConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
threshold1 Histerezis prosedürü için birinci eşik. Float 100
threshold2 Histerezis prosedürünün ikinci eşiği. Float 200
apertureSize Sobel operatörü için diyafram boyutu. Genel aralık 3-7 arasındadır. Integer 3
l2Gradient Görüntü gradyanının büyüklüğünü hesaplamak için L2 normunun kullanılıp kullanılmadığı, kullanılmasıyla ilgilidir. BOOLEAN False
EdgePluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Canny kenar dedektörü.

Yüzle ilgili önemli nokta seçenekleri

faceConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
minFaceDetectionConfidence Yüz tanıma için gereken minimum güven puanı kabul edilir. Float [0.0,1.0] 0.5
minFacePresenceConfidence Yüz tanımanın minimum güven puanı puanı. Float [0.0,1.0] 0.5
faceModelBaseOptions Yolu belirleyen BaseOptions nesnesi durum resmini oluşturan model için geçerlidir. BaseOptions nesne N/A
FacePluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Yüz İşaretçisi görevi.

Derinlik seçenekleri

depthConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
depthModelBaseOptions Yolu belirleyen BaseOptions nesnesi durum resmini oluşturan model için geçerlidir. BaseOptions nesne N/A
depthPluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

Modeller

Resim Oluşturucu için bir temel modeli gerekir. Bu model, metinden görsele yapay zeka modelidir. içeren bir reklam oluşturabilirsiniz. Temel modeller Bu bölümde listelenenler, ileri teknoloji cihazlarda çalışmak üzere optimize edilmiş hafif modellerdir akıllı telefonlar.

Eklenti modelleri isteğe bağlıdır ve temel modelleri tamamlar. metin istemiyle birlikte ek durum resmi sağlaması bir görsel üretme sürecidir. LoRA kullanarak temel modellerini özelleştirme Ağırlıklar, temel modeline belirli bir kavram hakkında bilgi veren bir seçenektir. oluşturabilir ve bunları, oluşturulan resimlere yerleştirebilir.

Temel modeller

Temel modeller, dönüşüm değeri oluşturan gizli metin-görsel difüzyon görseller oluşturabilirsiniz. Resim Oluşturucu, temel modelinin şuna göre runwayml/stable-diffusion-v1-5 EMA-only model biçimiyle eşleşir: modelimiz:

Aşağıdaki temel modelleri de Resim Oluşturucu ile uyumludur:

Bir temel modeli indirdikten sonra image_generator_converter biçimi için uygun cihaz üzerinde biçimine dönüştürmek üzere Resim Oluşturucu.

Gerekli bağımlılıkları yükleyin:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

convert.py komut dosyası:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

Eklenti modelleri

Bu bölümdeki eklenti modelleri Google tarafından geliştirilmiştir ve temel modeliyle uygulamaktır. Eklenti modelleri Resim Oluşturucu'yu aşağıdaki gibi etkinleştirir: giriş olarak metin istemi içeren durum resmini kabul edersiniz. Bu işlem, Üretilen resimlerin yapısını kontrol etmek. Eklenti modelleri ControlNet'e benzer özellikler ve yeni mimariyi ortaya koyduk. cihaz üzerinde difüzyon.

Eklenti modelleri temel seçeneklerde belirtilmelidir ve şunları gerektirebilir: ek model dosyaları indirin. Her eklentinin tarafından oluşturulabilecek bir durum resmi vardır.

Canny Edge eklentisi

Canny Edge eklentisi, istenen kenarları gösteren bir durum resmini kabul eder kullanır. Temel modelinde, yolun gösterdiği kenarlar durum resmini gösterir ve metin istemine göre yeni bir resim oluşturur. İlgili içeriği oluşturmak için kullanılan Resim Oluşturucu, durum görüntüleri oluşturmak için yerleşik özellikler içerir ve yalnızca eklenti modelinin indirilmesini gerektirir.

Canny Edge eklentisini indirin 'nı inceleyin.

Canny Edge eklentisi aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
threshold1 Histerezis prosedürü için birinci eşik. Float 100
threshold2 Histerezis prosedürünün ikinci eşiği. Float 200
apertureSize Sobel operatörü için diyafram boyutu. Genel aralık 3-7 arasındadır. Integer 3
l2Gradient Görüntü gradyanının büyüklüğünü hesaplamak için L2 normunun kullanılıp kullanılmadığı, kullanılmasıyla ilgilidir. BOOLEAN False
EdgePluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Canny kenar dedektörü.

Yüzdeki Önemli Noktalar eklentisi

Yüz İşareti eklentisi, MediaPipe Face'den alınan çıkışları kabul eder İşaretçi, durum resmi olarak kullanılır. Yüz İşaretçi Yüz özelliklerinin varlığı ve konumu. Temel modelinde yüz bakımı eşlemenin değeri ve ağ üzerinde yeni bir yüz oluşturur.

Yüz belirgin işareti eklentisini indirin 'nı inceleyin.

Yüz belirgin işareti eklentisi, Yüz İşaretçisi modeli de gerektirir. Bundle'ı kullanarak durum resmini oluşturun. Bu model paketi, Yüz İşaretçisi görevi.

Yüzle ilgili önemli nokta model paketini indirin 'nı inceleyin.

Yüz İşareti eklentisi, aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
minFaceDetectionConfidence Yüz tanıma için gereken minimum güven puanı kabul edilir. Float [0.0,1.0] 0.5
minFacePresenceConfidence Yüz tanımanın minimum güven puanı puanı. Float [0.0,1.0] 0.5
faceModelBaseOptions Yolu belirleyen BaseOptions nesnesi durum resmini oluşturan model için geçerlidir. BaseOptions nesne N/A
FacePluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Yüz İşaretçisi görevi.

Derinlik eklentisi

Depth eklentisi, resmin monoküler derinliğinin belirtildiği olabilir. Temel modeli, boyutu ve boyutu tahmin etmek için durum resmini derinliği yer alır ve metne dayalı olarak yeni bir resim oluşturur tıklayın.

İndir Depth eklentisi 'nı inceleyin.

Derinlik eklentisi, koşulu oluşturmak için Derinlik tahmini modeli de gerektirir. görüntüsüdür.

Derinlik tahmini modelini indir 'nı inceleyin.

Depth eklentisi aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı Açıklama Değer Aralığı Varsayılan Değer
depthModelBaseOptions Yolu belirleyen BaseOptions nesnesi durum resmini oluşturan model için geçerlidir. BaseOptions nesne N/A
depthPluginModelBaseOptions Yolu belirleyen BaseOptions nesnesi ilişkilendirme modelini kullanır. BaseOptions nesne N/A

LoRA ile özelleştirme

Bir modeli LoRA ile özelleştirmek, Resim Oluşturucu, belirli kavramlara dayalı resimler oluşturmak için benzersiz jetonlarla tanımlanmıştır. Bu tarihten sonra yeni LoRA ağırlıkları, yeni kavramın görüntülerini de üretebildiğinde, yeni metin isteminde belirtilir.

LoRA ağırlıkları oluşturmak için bir kullanıcının resimleri üzerinde bir temel modelinin eğitilmesi belirli bir nesne, kişi veya stil olabilir. Bunlar modelin yeni özellikleri görsel üretirken bunu nasıl kullanabileceğinizi açıklayacağım. Ağırlıklı olarak LoRa ağırlıkları oluşturuyorsanız belirli kişilerin ve yüzlerin resimlerini oluşturmak için bu çözümü izin veren kişilerin yüzleri veya yüzleri.

Aşağıda, görüntülerle eğitilen özelleştirilmiş bir modelin çıktısı verilmiştir. çaydanlık DreamBooth veri kümesi, "monadikos çaydanlık" jetonu:

İstem: aynanın yanında monadikos çaydanlığı

Özelleştirilmiş model, istemdeki jetonu aldı ve olduğunu öğrendi ve onu LoRA ağırlıklarından birinin yanına yerleştirdi istemde istendiği gibi yansıtın.

Vertex AI ile LoRA 'nı inceleyin.

Daha fazla bilgi için özelleştirme kılavuz, Bu segmentte Vertex AI'da Model Bahçesi kullanarak bir modeli özelleştirmek için kullanır.