La tâche du générateur d'images MediaPipe vous permet de générer des images à partir d'une requête textuelle. Cette tâche utilise un modèle texte-vers-image pour générer des images à l'aide de techniques de diffusion.
La tâche accepte une requête textuelle en entrée, ainsi qu'une image de condition facultative que le modèle peut augmenter et utiliser comme référence pour la génération. Pour en savoir plus sur la génération de texte vers image conditionnée, consultez Plugins de diffusion sur l'appareil pour la génération de texte vers image conditionnée.
Le générateur d'images peut également générer des images en fonction de concepts spécifiques fournis au modèle lors de l'entraînement ou du réentraînement. Pour en savoir plus, consultez Personnaliser avec LoRA.
Premiers pas
Pour commencer à utiliser cette tâche, suivez l'un de ces guides d'implémentation pour votre plate-forme cible. Ces guides spécifiques à la plate-forme vous expliquent comment implémenter cette tâche de base, avec des exemples de code qui utilisent un modèle par défaut et les options de configuration recommandées:
- Android – Exemple de code – Guide
- Personnaliser avec LoRA – Exemple de code – Colab
Détails de la tâche
Cette section décrit les fonctionnalités, les entrées, les sorties et les options de configuration de cette tâche.
Fonctionnalités
Vous pouvez utiliser le générateur d'images pour effectuer les opérations suivantes:
- Génération text-to-image : générez des images à l'aide d'une requête textuelle.
- Génération d'images avec des images de condition : générez des images à l'aide d'une requête textuelle et d'une image de référence. Le générateur d'images utilise des images de condition de manière semblable à ControlNet.
- Génération d'images avec des poids LoRA : générez des images de personnes, d'objets et de styles spécifiques à l'aide d'une requête textuelle à l'aide de poids de modèle personnalisés.
Entrées de tâche | Sorties de tâche |
---|---|
Le générateur d'images accepte les entrées suivantes:
|
Le générateur d'images génère les résultats suivants:
|
Options de configuration
Cette tâche propose les options de configuration suivantes:
Nom de l'option | Description | Plage de valeurs |
---|---|---|
imageGeneratorModelDirectory |
Répertoire du modèle de générateur d'images qui stocke les poids du modèle. | PATH |
loraWeightsFilePath |
Définit le chemin d'accès au fichier de poids LoRA. Facultatif et ne s'applique que si le modèle a été personnalisé avec LoRA. | PATH |
errorListener |
Définit un écouteur d'erreur facultatif. | N/A |
La tâche est également compatible avec les modèles de plug-in, ce qui permet aux utilisateurs d'inclure des images de condition dans l'entrée de la tâche, que le modèle de fondation peut augmenter et utiliser comme référence pour la génération. Ces images de condition peuvent être des repères faciaux, des contours de bord et des estimations de profondeur, que le modèle utilise comme contexte et informations supplémentaires pour générer des images.
Lorsque vous ajoutez un modèle de plug-in au modèle de base, configurez également les options du plug-in. Le plug-in de repère de visage utilise faceConditionOptions
, le plug-in de bordure Canny utilise edgeConditionOptions
et le plug-in de profondeur utilise depthConditionOptions
.
Options de Canny
Configurez les options suivantes dans edgeConditionOptions
.
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
threshold1 |
Premier seuil de la procédure d'hystérésis. | Float |
100 |
threshold2 |
Deuxième seuil pour la procédure d'hystérésis. | Float |
200 |
apertureSize |
Taille de l'ouverture pour l'opérateur Sobel. La plage habituelle est comprise entre 3 et 7. | Integer |
3 |
l2Gradient |
Indique si la norme L2 est utilisée pour calculer l'amplitude du gradient d'image au lieu de la norme L1 par défaut. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Pour en savoir plus sur le fonctionnement de ces options de configuration, consultez la section Détecteur de bords Canny.
Options de points de repère du visage
Configurez les options suivantes dans faceConditionOptions
.
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
minFaceDetectionConfidence |
Score de confiance minimal pour que la détection de visage soit considérée comme réussie. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
Score de confiance minimal du score de présence de visage dans la détection des points de repère du visage. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle qui crée l'image de la condition. |
Objet BaseOptions |
N/A |
FacePluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Pour en savoir plus sur le fonctionnement de ces options de configuration, consultez la section Tâche de repère facial.
Options de profondeur
Configurez les options suivantes dans depthConditionOptions
.
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
depthModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle qui crée l'image de la condition. |
Objet BaseOptions |
N/A |
depthPluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Modèles
Le générateur d'images nécessite un modèle de base, qui est un modèle d'IA de texte vers image qui utilise des techniques de diffusion pour générer de nouvelles images. Les modèles de base listés dans cette section sont des modèles légers optimisés pour s'exécuter sur des smartphones haut de gamme.
Les modèles de plug-in sont facultatifs et complètent les modèles de base. Ils permettent aux utilisateurs de fournir une image de condition supplémentaire avec une requête textuelle pour générer des images plus spécifiques. La personnalisation des modèles de base à l'aide de poids LoRA est une option qui permet d'enseigner au modèle de base un concept spécifique, tel qu'un objet, une personne ou un style, et de l'injecter dans les images générées.
Modèles de fondation
Les modèles de base sont des modèles de diffusion latente de texte vers image qui génèrent des images à partir d'une requête textuelle. Le générateur d'images nécessite que le modèle de base corresponde au format de modèle runwayml/stable-diffusion-v1-5 EMA-only
, basé sur le modèle suivant:
Les modèles de base suivants sont également compatibles avec le générateur d'images:
Après avoir téléchargé un modèle de base, utilisez image_generator_converter pour convertir le modèle au format approprié sur l'appareil pour le générateur d'images.
Installez les dépendances nécessaires:
$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py
Exécutez le script convert.py
:
$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>
Modèles de plug-in
Les modèles de plug-in de cette section sont développés par Google et doivent être utilisés avec un modèle de base. Les modèles de plug-in permettent au générateur d'images d'accepter une image de condition ainsi qu'une requête textuelle en entrée, ce qui vous permet de contrôler la structure des images générées. Les modèles de plug-in offrent des fonctionnalités similaires à celles de ControlNet, avec une architecture novatrice conçue spécifiquement pour la diffusion sur l'appareil.
Les modèles de plug-in doivent être spécifiés dans les options de base et vous devrez peut-être télécharger des fichiers de modèle supplémentaires. Chaque plug-in a des exigences uniques pour l'image de condition, qui peut être générée par le générateur d'images.
Plug-in Canny Edge
Le plug-in Canny Edge accepte une image de condition qui décrit les bords souhaités de l'image générée. Le modèle de base utilise les bords implicites de l'image de condition et génère une nouvelle image en fonction de la requête textuelle. Le générateur d'images contient des fonctionnalités intégrées pour créer des images de conditions et ne nécessite que le téléchargement du modèle du plug-in.
Télécharger le plug-in Canny Edge
Le plug-in Canny Edge contient les options de configuration suivantes:
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
threshold1 |
Premier seuil de la procédure d'hystérésis. | Float |
100 |
threshold2 |
Deuxième seuil pour la procédure d'hystérésis. | Float |
200 |
apertureSize |
Taille de l'ouverture pour l'opérateur Sobel. La plage habituelle est comprise entre 3 et 7. | Integer |
3 |
l2Gradient |
Indique si la norme L2 est utilisée pour calculer l'amplitude du gradient d'image au lieu de la norme L1 par défaut. | BOOLEAN |
False |
EdgePluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Pour en savoir plus sur le fonctionnement de ces options de configuration, consultez la section Détecteur de bords Canny.
Module complémentaire de points de repère du visage
Le plug-in de repères faciaux accepte la sortie du repère facial MediaPipe comme image de condition. Le repère de visage fournit un maillage détaillé d'un seul visage, qui cartographie la présence et l'emplacement des traits du visage. Le modèle de base utilise la cartographie faciale implicite de l'image de la condition et génère un nouveau visage sur le maillage.
Télécharger le plug-in de repères du visage
Le plug-in de points de repère du visage nécessite également le bundle de modèles du point de repère du visage pour créer l'image de la condition. Ce bundle de modèles est le même que celui utilisé par la tâche Repères du visage.
Télécharger le bundle de modèles de points de repère du visage
Le plug-in de repères faciaux contient les options de configuration suivantes:
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
minFaceDetectionConfidence |
Score de confiance minimal pour que la détection de visage soit considérée comme réussie. | Float [0.0,1.0] |
0.5 |
minFacePresenceConfidence |
Score de confiance minimal du score de présence de visage dans la détection des points de repère du visage. | Float [0.0,1.0] |
0.5 |
faceModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle qui crée l'image de la condition. |
Objet BaseOptions |
N/A |
FacePluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Pour en savoir plus sur le fonctionnement de ces options de configuration, consultez la section Tâche de repère facial.
Plug-in de profondeur
Le plug-in de profondeur accepte une image de condition qui spécifie la profondeur monoculaire d'un objet. Le modèle de base utilise l'image de condition pour déduire la taille et la profondeur de l'objet à générer, puis génère une nouvelle image en fonction de l'invite textuelle.
Le plug-in de profondeur nécessite également un modèle d'estimation de la profondeur pour créer l'image de la condition.
Télécharger le modèle d'estimation de la profondeur
Le plug-in Depth contient les options de configuration suivantes:
Nom de l'option | Description | Plage de valeurs | Valeur par défaut |
---|---|---|---|
depthModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle qui crée l'image de la condition. |
Objet BaseOptions |
N/A |
depthPluginModelBaseOptions |
Objet BaseOptions qui définit le chemin d'accès au modèle du plug-in. |
Objet BaseOptions |
N/A |
Personnalisation avec LoRA
Personnaliser un modèle avec LoRA peut permettre au générateur d'images de générer des images basées sur des concepts spécifiques, qui sont identifiés par des jetons uniques lors de l'entraînement. Avec les nouveaux poids LoRA après l'entraînement, le modèle peut générer des images du nouveau concept lorsque le jeton est spécifié dans la requête textuelle.
Pour créer des poids LoRA, vous devez entraîner un modèle de base sur des images d'un objet, d'une personne ou d'un style spécifique, ce qui permet au modèle de reconnaître le nouveau concept et de l'appliquer lors de la génération d'images. Si vous créez des poids LoRa pour générer des images de personnes et de visages spécifiques, n'utilisez cette solution que sur votre visage ou celui de personnes qui vous ont donné l'autorisation de le faire.
Vous trouverez ci-dessous le résultat d'un modèle personnalisé entraîné sur des images de théières de l'ensemble de données DreamBooth, à l'aide du jeton "théière Monadikos":
Invite: une théière monadikos à côté d'un miroir
Le modèle personnalisé a reçu le jeton dans l'invite et a injecté une théière qu'il a appris à représenter à partir des poids LoRA, et l'a placée dans l'image à côté d'un miroir, comme demandé dans l'invite.
Pour en savoir plus, consultez le guide de personnalisation, qui utilise Model Garden sur Vertex AI pour personnaliser un modèle en appliquant des poids LoRA à un modèle de base.