이미지 생성 가이드

<ph type="x-smartling-placeholder">

MediaPipe 이미지 생성기 작업을 사용하면 텍스트 프롬프트를 기반으로 이미지를 생성할 수 있습니다. 이 태스크에서는 텍스트 이미지 변환 모델을 사용하여 확산 기술을 사용하여 이미지를 생성합니다.

작업에서 조건 이미지(선택사항)와 함께 텍스트 프롬프트를 입력으로 허용합니다. 생성에 대한 참조로 사용할 수 있는 데이터 세트입니다. 자세한 내용은 자세한 내용은 기기 내 확산 플러그인을 위한 조건이 지정된 텍스트 이미지 변환 데이터 생성에 대해 설명합니다.

이미지 생성기 모델을 학습시키는 동안 모델에 제공된 특정 개념을 기반으로 또는 재학습입니다. 자세한 내용은 맞춤설정: LoRA

시작하기

다음 구현 가이드 중 하나를 따라 이 작업을 사용해 보세요. 확인할 수 있습니다 이 플랫폼별 가이드에서는 기본적인 기본 모델과 권장되는 구성 옵션:

태스크 세부정보

이 섹션에서는 기능, 입력, 출력, 구성을 설명합니다. 이 태스크의 옵션 중 하나입니다.

기능

이미지 생성기를 사용하여 다음을 구현할 수 있습니다.

  1. 텍스트 이미지 변환 생성 - 텍스트 프롬프트로 이미지를 생성합니다.
  2. 조건 이미지로 이미지 생성 - 텍스트가 포함된 이미지 생성 프롬프트와 참조 이미지를 사용합니다 이미지 생성기는 여러 방식으로 조건 이미지를 ControlNet과 유사합니다.
  3. LoRA 가중치를 사용한 이미지 생성 - 특정 인물의 이미지를 생성합니다. 커스텀 모델 가중치를 사용하여 텍스트 프롬프트로 객체, 스타일을 지정합니다.
작업 입력 작업 출력
이미지 생성기는 다음 입력을 허용합니다.
<ph type="x-smartling-placeholder">
    </ph>
  • 텍스트 프롬프트
  • 시드
  • 생성 반복 횟수
  • 선택사항: 조건 이미지
이미지 생성기는 다음과 같은 결과를 출력합니다.
<ph type="x-smartling-placeholder">
    </ph>
  • 입력을 기반으로 생성된 이미지입니다.
  • 선택사항: 생성된 이미지의 반복 스냅샷입니다.

구성 옵션

이 작업에는 다음과 같은 구성 옵션이 있습니다.

옵션 이름 설명 값 범위
imageGeneratorModelDirectory 모델 가중치를 저장하는 이미지 생성기 모델 디렉터리 PATH
loraWeightsFilePath LoRA 체중 파일 경로를 설정합니다. 선택사항이며 다음 경우에만 적용됩니다. 모델을 LoRA로 맞춤설정했습니다 PATH
errorListener 선택적 오류 리스너를 설정합니다. N/A

이 작업은 사용자가 조건 이미지를 포함할 수 있는 플러그인 모델도 지원합니다. 작업 입력에 표시되며, 이를 기반으로 기반 모델이 보강하고 참조로 사용할 수 있습니다. 있습니다. 상태 이미지는 얼굴 랜드마크, 가장자리 윤곽선, 깊이 추정치이며, 이 정보는 모델이 심층 분석을 위해 살펴보겠습니다

기반 모델에 플러그인 모델을 추가할 때 플러그인도 구성합니다. 있습니다. 얼굴 랜드마크 플러그인은 Canny 에지인 faceConditionOptions를 사용합니다. edgeConditionOptions를 사용하고 Depth 플러그인은 depthConditionOptions입니다.

Canny Edge 옵션

edgeConditionOptions에서 다음 옵션을 구성합니다.

옵션 이름 설명 값 범위 기본값
threshold1 이력 절차의 첫 번째 임곗값입니다. Float 100
threshold2 이력 절차의 두 번째 임곗값입니다. Float 200
apertureSize Sobel 연산자의 조리개 크기입니다. 일반적인 범위는 3~7입니다. Integer 3
l2Gradient L2 norm이 이미지 기울기 크기를 계산하는 데 사용되었는지 여부 L1 norm 대신 사용할 수 있습니다. BOOLEAN False
EdgePluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

이러한 구성 옵션의 작동 방식에 대한 자세한 내용은 다음을 참조하세요. Canny Edge 감지기.

얼굴 특징 옵션

faceConditionOptions에서 다음 옵션을 구성합니다.

옵션 이름 설명 값 범위 기본값
minFaceDetectionConfidence 얼굴 인식에 필요한 최소 신뢰도 점수입니다. 성공으로 간주됩니다. Float [0.0,1.0] 0.5
minFacePresenceConfidence 얼굴 존재의 최소 신뢰도 점수입니다. 얼굴 특징 감지에서 점수를 계산할 수 있습니다. Float [0.0,1.0] 0.5
faceModelBaseOptions 경로를 설정하는 BaseOptions 객체 조건 이미지를 생성하는 모델에 적용됩니다. BaseOptions 객체 N/A
FacePluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

이러한 구성 옵션의 작동 방식에 대한 자세한 내용은 얼굴 랜드마크 처리 작업.

심도 옵션

depthConditionOptions에서 다음 옵션을 구성합니다.

옵션 이름 설명 값 범위 기본값
depthModelBaseOptions 경로를 설정하는 BaseOptions 객체 조건 이미지를 생성하는 모델에 적용됩니다. BaseOptions 객체 N/A
depthPluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

모델

이미지 생성기에는 텍스트 이미지 변환 AI 모델인 기반 모델이 필요합니다. 는 확산 기술을 사용하여 새로운 이미지를 생성합니다. 기반 모델은 이 섹션에 나열된 경량 모델은 고급형 기기에서 실행하는 데 최적화된 경량 모델입니다. 있습니다.

플러그인 모델은 선택사항이며 기반 모델을 보완하여 사용자는 텍스트 프롬프트와 함께 추가 조건 이미지를 제공하여 생성할 수 있습니다. LoRA를 사용한 기반 모델 맞춤설정 가중치는 기반 모델에 특정 개념, 객체, 사람 또는 스타일과 같은 기본 이미지를 생성하고 이를 생성된 이미지에 삽입할 수 있습니다.

기반 모델

기반 모델은 잠재 텍스트-이미지 확산 모델로서 생성하는 방법을 알아보겠습니다 이미지 생성기를 사용하려면 기반 모델이 다음에 따라 runwayml/stable-diffusion-v1-5 EMA-only 모델 형식과 일치 있습니다.

다음 기반 모델도 이미지 생성기와 호환됩니다.

기반 모델을 다운로드한 후에는 image_generator_converter 모델을 적합한 온디바이스 형식으로 변환하여 이미지 생성기

필요한 종속 항목을 설치합니다.

$ pip install torch typing_extensions numpy Pillow requests pytorch_lightning absl-py

먼저 convert.py 드림 스크립트:

$ python3 convert.py --ckpt_path <ckpt_path> --output_path <output_path>

플러그인 모델

이 섹션에 있는 플러그인 모델은 Google에서 개발했으며 다음에서 사용해야 합니다. 모델을 학습시키는 작업도 반복해야 합니다 이미지 생성기를 사용하면 플러그인으로 다음 작업을 할 수 있습니다. 텍스트 프롬프트와 함께 조건 이미지를 입력으로 수락하여 생성된 이미지의 구조를 제어합니다. 플러그인 모델은 ControlNet과 유사하며 새로운 아키텍처와 기기 내 확산.

플러그인 모델은 기본 옵션에 지정되어야 하며 추가 모델 파일을 다운로드할 수 있습니다. 각 플러그인에는 조건 이미지이며 이미지 생성기로 생성할 수 있습니다.

Canny Edge 플러그인

Canny Edge 플러그인은 의도한 가장자리 윤곽선을 표시하는 조건 이미지를 허용합니다. 이미지를 생성합니다. 기반 모델은 데이터 레이크에서 조건 이미지를 빌드하고, 텍스트 프롬프트를 기반으로 새 이미지를 생성합니다. 이 이미지 생성기에는 조건 이미지를 만드는 기능이 내장되어 있습니다. 플러그인 모델을 다운로드하기만 하면 됩니다.

<ph type="x-smartling-placeholder"></ph> Canny Edge 플러그인 다운로드 를 통해 개인정보처리방침을 정의할 수 있습니다.

Canny Edge 플러그인에는 다음 구성 옵션이 포함되어 있습니다.

옵션 이름 설명 값 범위 기본값
threshold1 이력 절차의 첫 번째 임곗값입니다. Float 100
threshold2 이력 절차의 두 번째 임곗값입니다. Float 200
apertureSize Sobel 연산자의 조리개 크기입니다. 일반적인 범위는 3~7입니다. Integer 3
l2Gradient L2 norm이 이미지 기울기 크기를 계산하는 데 사용되었는지 여부 L1 norm 대신 사용할 수 있습니다. BOOLEAN False
EdgePluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

이러한 구성 옵션의 작동 방식에 대한 자세한 내용은 다음을 참조하세요. Canny Edge 감지기.

얼굴 랜드마크 플러그인

얼굴 랜드마크 플러그인은 MediaPipe 얼굴의 출력을 허용합니다. 랜드마크 도구를 조건 이미지로 사용할 수 있습니다. 더 페이스 랜드마크는 단일 얼굴의 세밀한 얼굴 메시를 제공하여 얼굴 특징의 존재 여부와 위치 기반 모델에서는 얼굴 인식, 매핑되고 메시 위에 새 면이 생성됩니다.

<ph type="x-smartling-placeholder"></ph> 얼굴 랜드마크 플러그인 다운로드 를 통해 개인정보처리방침을 정의할 수 있습니다.

얼굴 특징 플러그인에는 얼굴 랜드마크모델도 필요합니다. bundle을 호출하여 조건 이미지를 만듭니다. 이 모델 번들은 모델 번들에서 사용하는 것과 동일한 Face TRADEMARKer 작업

<ph type="x-smartling-placeholder"></ph> 얼굴 특징 모델 번들 다운로드 를 통해 개인정보처리방침을 정의할 수 있습니다.

얼굴 랜드마크 플러그인에는 다음 구성 옵션이 포함되어 있습니다.

옵션 이름 설명 값 범위 기본값
minFaceDetectionConfidence 얼굴 인식에 필요한 최소 신뢰도 점수입니다. 성공으로 간주됩니다. Float [0.0,1.0] 0.5
minFacePresenceConfidence 얼굴 존재의 최소 신뢰도 점수입니다. 얼굴 특징 감지에서 점수를 계산할 수 있습니다. Float [0.0,1.0] 0.5
faceModelBaseOptions 경로를 설정하는 BaseOptions 객체 조건 이미지를 생성하는 모델에 적용됩니다. BaseOptions 객체 N/A
FacePluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

이러한 구성 옵션의 작동 방식에 대한 자세한 내용은 얼굴 랜드마크 처리 작업.

Depth 플러그인

깊이 플러그인은 단안 깊이를 지정하는 조건 이미지를 허용합니다. 객체입니다. 기반 모델은 조건 이미지를 사용하여 생성할 객체의 깊이를 정의하고 텍스트를 기반으로 새 이미지를 생성합니다. 메시지가 표시됩니다.

<ph type="x-smartling-placeholder"></ph> Depth 플러그인 다운로드 를 통해 개인정보처리방침을 정의할 수 있습니다.

Depth 플러그인에서는 조건을 생성하기 위해 깊이 추정 모델도 필요합니다. 이미지

<ph type="x-smartling-placeholder"></ph> 깊이 추정 모델 다운로드 를 통해 개인정보처리방침을 정의할 수 있습니다.

Depth 플러그인에는 다음 구성 옵션이 포함되어 있습니다.

옵션 이름 설명 값 범위 기본값
depthModelBaseOptions 경로를 설정하는 BaseOptions 객체 조건 이미지를 생성하는 모델에 적용됩니다. BaseOptions 객체 N/A
depthPluginModelBaseOptions 경로를 설정하는 BaseOptions 객체 플러그인 모델입니다. BaseOptions 객체 N/A

LoRA를 사용한 맞춤설정

LoRA로 모델을 맞춤설정하면 이미지 생성기를 사용하여 특정 개념에 기반하여 고유한 토큰으로 식별됩니다 새 LoRA 가중치는 학습에서 토큰 학습이 나오면 모델이 새로운 개념의 이미지를 지정할 수도 있습니다

LoRA 가중치를 만들려면 특정 물체의 이미지를 기반으로 기반 모델을 학습시켜야 합니다. 특정 사물, 사람 또는 스타일을 지정하여 새로운 피사체를 이미지를 생성할 때 적용하는 것이 중요합니다. 모델 학습에 사용할 LoRa 가중치를 이 솔루션은 특정 인물 및 얼굴의 이미지를 생성하는 데 권한을 부여한 사람의 얼굴 또는 얼굴

다음은 신경망의 이미지와 찻주전자 DreamBooth 데이터 세트를 사용하여 토큰 'monadikosTapot':

프롬프트: 거울 옆에 놓인 모나디코스 찻주전자

커스텀 모델은 프롬프트에서 토큰을 수신하여 LoRA 가중치를 통해 묘사하는 것을 학습하여 고양이에 대해 미러링할 수 있습니다

<ph type="x-smartling-placeholder"></ph> Vertex AI를 사용한 LoRA 를 통해 개인정보처리방침을 정의할 수 있습니다.

자세한 내용은 맞춤설정 가이드를 참조하세요. 는 Vertex AI의 모델 가든 LoRA 가중치를 기반 모델에 적용하여 모델을 맞춤설정할 수 있습니다.