2025 年 12 月 12 日
Toongether は Gemini 2.5 Flash Image を使用してアートスタイルの整合性を維持します
生成 AI の台頭により、クリエイティブな表現の新たなフロンティアが開かれ、デベロッパーは一般ユーザーをアーティストに変えるツールを構築できるようになりました。ただし、コミックのような連続したアートの場合、課題は単に優れた画像を 1 つ生成することではなく、数十のコマにわたって一貫したキャラクター、スタイル、物語を生成することです。
ウェブコミック アプリの背後にある企業である Toongether は、この課題に正面から取り組んでいます。同社の使命は、ビジュアル ストーリーテリングを民主化することです。カジュアル ユーザーがモバイル デバイスから直接コミックを読んだり、作成したり、共有したりできるプラットフォームを提供しています。Gemini 2.5 Flash Image を制作パイプラインに統合することで、ユーザーが絵を描く際の技術的なハードルを克服し、新しいストーリーテラーのコミュニティが共同で制作できるようになります。
大規模な一貫性の実現
漫画の作成には厳密な一貫性が求められます。統一されたアートスタイルを維持しながら、さまざまなポーズ、衣装、表情でキャラクターを認識できるようにする必要があります。
当初、toongether チームは、ControlNet や IPAdapter などのツールで強化されたファインチューニング済みの Stable Diffusion XL モデルを含む複雑なスタックを使用していました。この方法では定性的な結果は得られましたが、レイテンシと柔軟性の問題が残りました。これはモバイル ビルダーにとって大きなボトルネックです。1 枚の画像を生成するのに 20 ~ 30 秒かかり、シームレスなユーザー エクスペリエンスには遅すぎます。さらに、新しいポーズや描画スタイルのサポートを追加するには、かなりのエンジニアリング作業が必要であり、迅速なイテレーションが困難でした。
Gemini を使用した複雑なパイプラインのオーケストレーション
これらのボトルネックを解消するため、toongether はコア画像生成パイプラインを Gemini API に移行しました。彼らは、複雑なマルチステップの生成タスクを処理するために必要な優れた編集機能と指示追従機能を提供する Gemini 2.5 Flash Image(速度と敏捷性から「Nano Banana」という愛称で親しまれています)を選択しました。
この移行により、開発速度が大幅に向上し、チームはわずか 2 週間でプロトタイプから完全な本番環境の実装に移行しました。
ユーザーのカスタマイズを可能にしながらキャラクターの一貫性を維持するために、toongether は Gemini 2.5 Flash Image を活用して、高度なマルチステージ パイプラインを構築しました。
- スタイル分析とリファレンス生成: ユーザーが新しいキャラクターを作成すると、アプリはモデルにリファレンス キャラクターの厳選されたリストを提供し、目的のスタイルを分析します。シンプルなテキストの説明に基づいて、この新しいオリジナル キャラクターの「ニュートラル ポーズ」の参照画像が生成されます。
- アセットパックとポーズの生成: キャラクターをストーリーに登場させるため、toongether は「アセットパック」を使用します。これは、目的のポーズとユースケースの説明をグループ化したリストです。ニュートラルな参照画像とともに指示プロンプトを使用することで、キャラクターの視覚的アイデンティティを損なうことなく、特定のシナリオを生成するように Gemini 2.5 Flash Image に指示できます。
- シーンの構成: 背景などの要素については、チームが参照画像を提供して正しいアートスタイルを推測し、パネルの統一性を確保します。
toongether の共同創業者である Samir Nasser Eddine 氏は、「Gemini 2.5 Flash Image の高度な編集機能と指示機能を活用することで、すべてのユースケースをサポートできました」と述べています。「今では、画像生成パイプラインに欠かせないものになっています。」
toongether の今後について
基盤となる要素が整ったため、toongether チームは、以前はリソース集約型と見なされていた高度なナラティブ機能に目を向けています。Gemini モデルを使用して、1 つのパネル内の複数のキャラクター間の複雑なインタラクションをサポートし、より幅広い描画スタイルを導入する予定です。
toongether の取り組みは、Gemini API が複雑なモデルスタックの管理から、カジュアル ユーザー向けにスケーリング可能な洗練された一貫性のあるクリエイティブ ツールを構築する次の世代のビルダーを支援する方法を示しています。
Gemini モデルを使用して独自のクリエイティブ アプリケーションの構築を開始するには、API ドキュメントをご覧ください。