分享

2025 年 12 月 12 日

Toongether 會使用 Gemini 2.5 Flash Image 確保藝術風格一致性

Samir Nasser Eddine

toongether 共同創辦人

Guillaume Vernade

DeepMind 資深開發人員服務代表

Toongether 展示主頁橫幅

生成式 AI 的興起為創意表現開創了新領域,開發人員可以打造工具,讓一般使用者也能成為藝術家。不過,對於漫畫等連續圖像,挑戰不僅在於生成單一優質圖像,還要在數十個格中生成一致的角色、風格和敘事內容。

網路漫畫應用程式背後的公司 Toongether 正面迎戰這項挑戰。他們的使命是普及影像敘事,提供一個平台,讓一般使用者不僅能閱讀漫畫,還能直接透過行動裝置創作及分享自己的漫畫。他們將 Gemini 2.5 Flash Image 整合到創作流程中,協助使用者克服繪圖的技術障礙,讓新一代說書人共同創作。

大規模確保一致性

製作漫畫需要嚴格的一致性。角色必須在不同姿勢、服裝和臉部表情中保持可辨識度,同時遵守統一的藝術風格。

一開始,toongether 團隊採用複雜的堆疊,其中包含經過微調的 Stable Diffusion XL 模型,並透過 ControlNet 和 IPAdapter 等工具強化。雖然這項技術帶來了質性成果,但在延遲和彈性方面卻有困難,成為行動裝置開發人員的主要瓶頸。生成單張圖片需要 20 到 30 秒,速度太慢,無法提供流暢的使用者體驗。此外,支援新姿勢或繪圖風格需要投入大量工程資源,因此無法快速反覆運算。

運用 Gemini 自動調度管理複雜的管道

為克服這些瓶頸,toongether 將核心圖片生成管道遷移至 Gemini API。他們選擇了 Gemini 2.5 Flash Image (又稱「Nano Banana」,因為速度快且靈活),這個模型具備優異的編輯和指令遵循能力,可處理複雜的多步驟生成工作。

這項轉移作業大幅加快了開發速度,團隊僅僅兩週就從原型階段進入全面生產實作。

為了在維持角色一致性的同時,讓使用者自訂內容,toongether 運用 Gemini 2.5 Flash Image 建構了複雜的多階段管道:

  • 風格分析和參考生成:使用者建立新角色時,應用程式會提供精選的參考角色清單給模型,以分析所需風格。根據簡單的文字說明,模型會為這個新原創角色生成「中性姿勢」參考圖片。
  • 資產包和姿勢生成:如要將角色放入故事中,toongether 會使用「資產包」,也就是所需姿勢和用途的說明清單。只要提供指令提示和中性參考圖像,就能指示 Gemini 2.5 Flash Image 生成特定情境,同時保留角色的視覺特徵。
  • 場景構圖:團隊會提供背景和其他元素的參考圖片,推斷正確的藝術風格,確保面板風格一致。

HubX

「我們運用 Gemini 2.5 Flash Image 的進階編輯和指令功能,支援了所有使用案例。」toongether 共同創辦人 Samir Nasser Eddine 說明。「現在已成為我們圖片生成流程不可或缺的一環。」

toongether 的後續發展

有了這些基礎元素,toongether 團隊便能著手開發先前因耗用資源過多而無法實現的進階敘事功能。他們計畫使用 Gemini 模型,支援單一面板中多個角色之間的複雜互動,並推出更多元的繪圖風格。

toongether 的歷程說明 Gemini API 如何協助下一代建構者擺脫複雜模型堆疊的管理作業,轉而建構精密的創意工具,並將這些工具擴展至一般使用者。

如要開始使用 Gemini 模型建構自己的創意應用程式,請參閱 API 說明文件