2025년 12월 12일
Toongether는 Gemini 2.5 Flash Image를 사용하여 아트 스타일 일관성을 유지합니다.
생성형 AI의 부상으로 창의적인 표현을 위한 새로운 영역이 열렸으며, 개발자는 일반 사용자를 아티스트로 변신시키는 도구를 빌드할 수 있게 되었습니다. 하지만 만화와 같은 연속적인 예술의 경우 좋은 이미지를 하나 생성하는 것뿐만 아니라 수십 개의 패널에 걸쳐 일관된 캐릭터, 스타일, 내러티브를 생성하는 것이 문제입니다.
웹툰 앱을 개발한 Toongether는 이 문제에 정면으로 맞서고 있습니다. 이 회사의 사명은 시각적 스토리텔링을 민주화하여 일반 사용자가 휴대기기에서 직접 만화를 읽을 뿐만 아니라 만들고 공유할 수 있는 플랫폼을 제공하는 것입니다. Gemini 2.5 Flash Image를 제작 파이프라인에 통합하여 사용자가 그림의 기술적 장애물을 극복할 수 있도록 지원하고 새로운 스토리텔러 커뮤니티가 공동으로 창작할 수 있도록 지원합니다.
대규모로 일관성 유지
만화를 만들려면 엄격한 일관성이 필요합니다. 캐릭터는 통일된 아트 스타일을 준수하면서 다양한 포즈, 의상, 표정에서 알아볼 수 있어야 합니다.
처음에 Toongether팀은 ControlNet 및 IPAdapters와 같은 도구로 강화된 미세 조정된 Stable Diffusion XL 모델이 포함된 복잡한 스택을 사용했습니다. 이 방법은 정성적 결과를 제공했지만 지연 시간과 유연성 면에서 어려움이 있었습니다. 이는 모바일 빌더에게 큰 병목 현상이었습니다. 단일 이미지를 생성하는 데 20~30초가 걸렸는데, 이는 원활한 사용자 환경을 제공하기에는 너무 느립니다. 또한 새로운 포즈나 그리기 스타일을 지원하려면 상당한 엔지니어링 노력이 필요했기 때문에 빠르게 반복할 수 없었습니다.
Gemini를 사용한 복잡한 파이프라인 조정
이러한 병목 현상을 극복하기 위해 toongether는 핵심 이미지 생성 파이프라인을 Gemini API로 이전했습니다. 이들은 속도와 민첩성으로 인해 'Nano Banana'라는 애칭으로도 불리는 Gemini 2.5 Flash Image를 선택했습니다. 이 모델은 복잡한 다단계 생성 작업을 처리하는 데 필요한 뛰어난 편집 및 지침 준수 기능을 제공합니다.
이 전환으로 개발 속도가 크게 빨라져 팀이 프로토타입에서 정식 프로덕션 구현으로 전환하는 데 단 2주밖에 걸리지 않았습니다.
사용자 맞춤설정을 허용하면서 캐릭터 일관성을 유지하기 위해 toongether는 Gemini 2.5 Flash Image를 활용하여 정교한 다단계 파이프라인을 구축했습니다.
- 스타일 분석 및 참조 생성: 사용자가 새 캐릭터를 만들면 앱은 원하는 스타일을 분석할 수 있도록 선별된 참조 캐릭터 목록을 모델에 제공합니다. 간단한 텍스트 설명을 기반으로 모델은 이 새로운 오리지널 캐릭터의 '중립적인 포즈' 참조 이미지를 생성합니다.
- 애셋 팩 및 포즈 생성: Toongether는 캐릭터를 스토리에 넣기 위해 원하는 포즈와 사용 사례에 대한 설명이 그룹화된 목록인 '애셋 팩'을 사용합니다. 중립적인 참조 이미지와 함께 명령어 프롬프트를 활용하면 캐릭터의 시각적 정체성을 유지하면서 특정 시나리오를 생성하도록 Gemini 2.5 Flash Image에 지시할 수 있습니다.
- 장면 구성: 배경 및 기타 요소의 경우 팀에서 올바른 아트 스타일을 추론하기 위한 참조 이미지를 제공하여 패널의 일관성을 보장합니다.
toongether의 공동 창업자인 사미르 나세르 에딘은 'Gemini 2.5 Flash Image의 고급 편집 및 요청 사항 기능 덕분에 모든 사용 사례를 지원할 수 있었습니다'라고 설명합니다. '이제 이미지 생성 파이프라인의 필수적인 부분이 되었습니다.'
toongether의 향후 계획
기본 요소를 갖춘 toongether팀은 이전에는 리소스 집약적이라고 여겨졌던 고급 스토리텔링 기능을 모색하고 있습니다. Gemini 모델을 사용하여 단일 패널 내에서 여러 캐릭터 간의 복잡한 상호작용을 지원하고 다양한 그리기 스타일을 도입할 계획입니다.
toongether의 여정은 Gemini API가 다음 세대의 빌더가 복잡한 모델 스택 관리를 넘어 일반 사용자로 확장되는 정교하고 일관된 크리에이티브 도구를 구축하는 데 어떻게 도움이 되는지 보여줍니다.
Gemini 모델로 나만의 창의적인 애플리케이션을 빌드하려면 API 문서를 참고하세요.