LiRT ile tanışın: Google'ın cihaz üzerinde yapay zeka için yüksek performanslı çalışma zamanı (eski adıyla TensorFlow Lite).

Bu sayfa, Cloud Translation API ile çevrilmiştir.

Resim oluşturma kılavuzu

MediaPipe Image Generator görevi, metin istemine göre görseller oluşturmanıza olanak tanır. Bu görev, difüzyon teknikleriyle görüntüler oluşturmak için metin-resim modeli kullanır.

Görev, isteğe bağlı bir koşul resmiyle birlikte giriş olarak bir metin istemini kabul eder geliştirebileceği ve referans olarak kullanabileceği bir modeldir. Şu konularda daha fazla bilgi için: koşullandırılmış metinden görsele dönüştürme hakkında daha fazla bilgi için koşullandırılmış metin-resim oluşturma.

Resim Oluşturucu sırasında modele sağlanan belirli kavramlara dayalı görüntüler de üretebilir. yeniden eğitmektir. Daha fazla bilgi için LoRA olarak değiştirin.

Başlayın

Aşağıdaki uygulama rehberlerinden birini izleyerek bu görevi kullanmaya başlayın: yardımcı olur. Platforma özel bu kılavuzlar, Google'ın temel özelliklerini bu görevin uygulanmasında, yerine bir varsayılan model ve önerilen yapılandırma seçenekleri:

Android - Kod örneği - Kılavuz
LoRA ile özelleştirme - Kod örnek - Colab

Görev ayrıntıları

Bu bölümde özellikler, girişler, çıkışlar ve yapılandırma açıklanmaktadır. bu görev için kullanılabilir.

Özellikler

Aşağıdakileri uygulamak için Resim Oluşturucu'yu kullanabilirsiniz:

Metinden görsele oluşturma: Metin istemiyle resimler oluşturun.
Durum resimleriyle resim üretme - Metin içeren resimler oluşturun istem ve referans resim. Resim Oluşturucu, durum resimlerini farklı şekillerde kullanır ControlNet'e benzer.
LoRA ağırlıklarıyla resim oluşturma - Belirli kişilerin resimlerini, nesneleri ve stilleri, özelleştirilmiş model ağırlıklarını kullanan bir metin istemiyle görebilirsiniz.

Görev girişleri	Görev çıkışları
Resim Oluşturucu şu girişleri kabul eder: İstem metni Tohum Üretken iterasyon sayısı İsteğe bağlı: durum resmi	Resim Oluşturucu aşağıdaki sonuçları verir: Girişlere göre oluşturulan resim. İsteğe bağlı: Oluşturulan resmin yinelemeli anlık görüntüleri.

Görev girişleri

Görev çıkışları

Resim Oluşturucu şu girişleri kabul eder:

İstem metni

Tohum

Üretken iterasyon sayısı

İsteğe bağlı: durum resmi

Resim Oluşturucu aşağıdaki sonuçları verir:

Girişlere göre oluşturulan resim.

İsteğe bağlı: Oluşturulan resmin yinelemeli anlık görüntüleri.

Yapılandırma seçenekleri

Bu görev aşağıdaki yapılandırma seçeneklerine sahiptir:

Seçenek Adı	Açıklama	Değer Aralığı
`imageGeneratorModelDirectory`	Model ağırlıklarının depolandığı resim oluşturucu model dizini.	`PATH`
`loraWeightsFilePath`	LoRA ağırlıkları dosyasının yolunu ayarlar. İsteğe bağlıdır ve yalnızca şu durumlarda geçerlidir model LoRA ile özelleştirildi.	`PATH`
`errorListener`	İsteğe bağlı bir hata işleyici ayarlar.	`N/A`

Görev, kullanıcıların durum resimleri eklemesine olanak tanıyan eklenti modellerini de destekler. görev girişinde yer alır. Temel model bu bilgileri geliştirip referans olarak kullanabilir. üretiliyor. Bu durum resimleri, yüz önemli noktaları, kenar dış çizgileri ve Derinlik tahminleri: Bu tahminler, modelin gerekli bilgileri edinip ve görseller üretmenizi sağlar.

Temel modeline bir eklenti modeli eklerken, seçenekleri vardır. Face belirgin işaret eklentisi, Canny kenarı olan faceConditionOptions kullanır. eklentisi edgeConditionOptions kullanır ve Depth eklentisi depthConditionOptions.

Canny Edge seçenekleri

edgeConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`threshold1`	Histerezis prosedürü için birinci eşik.	`Float`	`100`
`threshold2`	Histerezis prosedürünün ikinci eşiği.	`Float`	`200`
`apertureSize`	Sobel operatörü için diyafram boyutu. Genel aralık 3-7 arasındadır.	`Integer`	`3`
`l2Gradient`	Görüntü gradyanının büyüklüğünü hesaplamak için L2 normunun kullanılıp kullanılmadığı, kullanılmasıyla ilgilidir.	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Canny kenar dedektörü.

Yüzle ilgili önemli nokta seçenekleri

faceConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`minFaceDetectionConfidence`	Yüz tanıma için gereken minimum güven puanı kabul edilir.	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	Yüz tanımanın minimum güven puanı puanı.	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi durum resmini oluşturan model için geçerlidir.	`BaseOptions` nesne	`N/A`
`FacePluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Yüz İşaretçisi görevi.

Derinlik seçenekleri

depthConditionOptions içinde aşağıdaki seçenekleri yapılandırın.

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`depthModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi durum resmini oluşturan model için geçerlidir.	`BaseOptions` nesne	`N/A`
`depthPluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

Modeller

Resim Oluşturucu için bir temel modeli gerekir. Bu model, metinden görsele yapay zeka modelidir. içeren bir reklam oluşturabilirsiniz. Temel modeller Bu bölümde listelenenler, ileri teknoloji cihazlarda çalışmak üzere optimize edilmiş hafif modellerdir akıllı telefonlar.

Eklenti modelleri isteğe bağlıdır ve temel modelleri tamamlar. metin istemiyle birlikte ek durum resmi sağlaması bir görsel üretme sürecidir. LoRA kullanarak temel modellerini özelleştirme Ağırlıklar, temel modeline belirli bir kavram hakkında bilgi veren bir seçenektir. oluşturabilir ve bunları, oluşturulan resimlere yerleştirebilir.

Temel modeller

Temel modeller, dönüşüm değeri oluşturan gizli metin-görsel difüzyon görseller oluşturabilirsiniz. Resim Oluşturucu, temel modelinin şuna göre runwayml/stable-diffusion-v1-5 EMA-only model biçimiyle eşleşir: modelimiz:

runwayml/stable-diffusion-v1-5

Aşağıdaki temel modelleri de Resim Oluşturucu ile uyumludur:

Bir temel modeli indirdikten sonra image_generator_converter biçimi için uygun cihaz üzerinde biçimine dönüştürmek üzere Resim Oluşturucu.

Gerekli bağımlılıkları yükleyin:

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

convert.py komut dosyası:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

Eklenti modelleri

Bu bölümdeki eklenti modelleri Google tarafından geliştirilmiştir ve temel modeliyle uygulamaktır. Eklenti modelleri Resim Oluşturucu'yu aşağıdaki gibi etkinleştirir: giriş olarak metin istemi içeren durum resmini kabul edersiniz. Bu işlem, Üretilen resimlerin yapısını kontrol etmek. Eklenti modelleri ControlNet'e benzer özellikler ve yeni mimariyi ortaya koyduk. cihaz üzerinde difüzyon.

Eklenti modelleri temel seçeneklerde belirtilmelidir ve şunları gerektirebilir: ek model dosyaları indirin. Her eklentinin tarafından oluşturulabilecek bir durum resmi vardır.

Canny Edge eklentisi

Canny Edge eklentisi, istenen kenarları gösteren bir durum resmini kabul eder kullanır. Temel modelinde, yolun gösterdiği kenarlar durum resmini gösterir ve metin istemine göre yeni bir resim oluşturur. İlgili içeriği oluşturmak için kullanılan Resim Oluşturucu, durum görüntüleri oluşturmak için yerleşik özellikler içerir ve yalnızca eklenti modelinin indirilmesini gerektirir.

Canny Edge eklentisini indirin 'nı inceleyin.

Canny Edge eklentisi aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`threshold1`	Histerezis prosedürü için birinci eşik.	`Float`	`100`
`threshold2`	Histerezis prosedürünün ikinci eşiği.	`Float`	`200`
`apertureSize`	Sobel operatörü için diyafram boyutu. Genel aralık 3-7 arasındadır.	`Integer`	`3`
`l2Gradient`	Görüntü gradyanının büyüklüğünü hesaplamak için L2 normunun kullanılıp kullanılmadığı, kullanılmasıyla ilgilidir.	`BOOLEAN`	`False`
`EdgePluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Canny kenar dedektörü.

Yüzdeki Önemli Noktalar eklentisi

Yüz İşareti eklentisi, MediaPipe Face'den alınan çıkışları kabul eder İşaretçi, durum resmi olarak kullanılır. Yüz İşaretçi Yüz özelliklerinin varlığı ve konumu. Temel modelinde yüz bakımı eşlemenin değeri ve ağ üzerinde yeni bir yüz oluşturur.

Yüz belirgin işareti eklentisini indirin 'nı inceleyin.

Yüz belirgin işareti eklentisi, Yüz İşaretçisi modeli de gerektirir. Bundle'ı kullanarak durum resmini oluşturun. Bu model paketi, Yüz İşaretçisi görevi.

Yüzle ilgili önemli nokta model paketini indirin 'nı inceleyin.

Yüz İşareti eklentisi, aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`minFaceDetectionConfidence`	Yüz tanıma için gereken minimum güven puanı kabul edilir.	`Float [0.0,1.0]`	`0.5`
`minFacePresenceConfidence`	Yüz tanımanın minimum güven puanı puanı.	`Float [0.0,1.0]`	`0.5`
`faceModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi durum resmini oluşturan model için geçerlidir.	`BaseOptions` nesne	`N/A`
`FacePluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

Bu yapılandırma seçeneklerinin işleyiş şekli hakkında daha fazla bilgi edinmek için Yüz İşaretçisi görevi.

Derinlik eklentisi

Depth eklentisi, resmin monoküler derinliğinin belirtildiği olabilir. Temel modeli, boyutu ve boyutu tahmin etmek için durum resmini derinliği yer alır ve metne dayalı olarak yeni bir resim oluşturur tıklayın.

İndir Depth eklentisi 'nı inceleyin.

Derinlik eklentisi, koşulu oluşturmak için Derinlik tahmini modeli de gerektirir. görüntüsüdür.

Derinlik tahmini modelini indir 'nı inceleyin.

Depth eklentisi aşağıdaki yapılandırma seçeneklerini içerir:

Seçenek Adı	Açıklama	Değer Aralığı	Varsayılan Değer
`depthModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi durum resmini oluşturan model için geçerlidir.	`BaseOptions` nesne	`N/A`
`depthPluginModelBaseOptions`	Yolu belirleyen `BaseOptions` nesnesi ilişkilendirme modelini kullanır.	`BaseOptions` nesne	`N/A`

LoRA ile özelleştirme

Bir modeli LoRA ile özelleştirmek, Resim Oluşturucu, belirli kavramlara dayalı resimler oluşturmak için benzersiz jetonlarla tanımlanmıştır. Bu tarihten sonra yeni LoRA ağırlıkları, yeni kavramın görüntülerini de üretebildiğinde, yeni metin isteminde belirtilir.

LoRA ağırlıkları oluşturmak için bir kullanıcının resimleri üzerinde bir temel modelinin eğitilmesi belirli bir nesne, kişi veya stil olabilir. Bunlar modelin yeni özellikleri görsel üretirken bunu nasıl kullanabileceğinizi açıklayacağım. Ağırlıklı olarak LoRa ağırlıkları oluşturuyorsanız belirli kişilerin ve yüzlerin resimlerini oluşturmak için bu çözümü izin veren kişilerin yüzleri veya yüzleri.

Aşağıda, görüntülerle eğitilen özelleştirilmiş bir modelin çıktısı verilmiştir. çaydanlık DreamBooth veri kümesi, "monadikos çaydanlık" jetonu:

İstem: aynanın yanında monadikos çaydanlığı

Özelleştirilmiş model, istemdeki jetonu aldı ve olduğunu öğrendi ve onu LoRA ağırlıklarından birinin yanına yerleştirdi istemde istendiği gibi yansıtın.

Vertex AI ile LoRA 'nı inceleyin.

Daha fazla bilgi için özelleştirme kılavuz, Bu segmentte Vertex AI'da Model Bahçesi kullanarak bir modeli özelleştirmek için kullanır.