12. DEZEMBER 2025
Toongether sorgt mit Gemini 2.5 Flash Image für einen einheitlichen Kunststil
Die Entwicklung generativer KI hat neue Möglichkeiten für kreative Ausdrucksformen eröffnet. Entwickler können jetzt Tools erstellen, mit denen Nutzer ohne besondere Vorkenntnisse Kunstwerke erschaffen können. Bei sequenziellen Kunstformen wie Comics besteht die Herausforderung jedoch nicht nur darin, ein einzelnes gutes Bild zu generieren, sondern konsistente Charaktere, Stile und Erzählungen über Dutzende von Panels hinweg zu erstellen.
Toongether, das Unternehmen hinter der Webcomic-App, stellt sich dieser Herausforderung. Das Unternehmen hat sich zum Ziel gesetzt, visuelles Storytelling zu demokratisieren und eine Plattform zu schaffen, auf der Nutzer nicht nur Comics lesen, sondern auch eigene Comics direkt auf ihren Mobilgeräten erstellen und teilen können. Durch die Integration von Gemini 2.5 Flash Image in ihren Erstellungsprozess helfen sie Nutzern, die technischen Hürden des Zeichnens zu überwinden, und ermöglichen einer neuen Community von Geschichtenerzählern die gemeinsame Erstellung von Inhalten.
Einheitlichkeit in großem Maßstab erreichen
Das Erstellen eines Comics erfordert eine strenge Konsistenz. Die Charaktere müssen in verschiedenen Posen, Outfits und Gesichtsausdrücken erkennbar bleiben und gleichzeitig einem einheitlichen Kunststil entsprechen.
Anfangs setzte das Toongether-Team auf einen komplexen Stack mit einem feinabgestimmten Stable Diffusion XL-Modell, das mit Tools wie ControlNet und IPAdapters erweitert wurde. Dieser Ansatz lieferte zwar qualitative Ergebnisse, hatte aber mit Latenz und Flexibilität zu kämpfen – große Engpässe für mobile Entwickler. Das Generieren eines einzelnen Bildes dauerte zwischen 20 und 30 Sekunden, was für eine nahtlose Nutzererfahrung zu langsam ist. Außerdem erforderte das Hinzufügen von Unterstützung für neue Posen oder Zeichenstile einen erheblichen technischen Aufwand, was die Möglichkeit, schnell zu iterieren, einschränkte.
Komplexe Pipelines mit Gemini orchestrieren
Um diese Engpässe zu beseitigen, hat toongether seine zentrale Pipeline zur Bildgenerierung auf die Gemini API migriert. Sie entschieden sich für Gemini 2.5 Flash Image, das aufgrund seiner Geschwindigkeit und Agilität auch liebevoll „Nano Banana“ genannt wird. Es bietet die überlegenen Bearbeitungs- und Befolgungsmöglichkeiten, die für komplexe, mehrstufige Generierungsaufgaben erforderlich sind.
Die Umstellung hat die Entwicklungsgeschwindigkeit erheblich beschleunigt. Das Team konnte innerhalb von nur zwei Wochen von einem Prototyp zu einer vollständigen Produktionsimplementierung wechseln.
Um die Konsistenz der Charaktere beizubehalten und gleichzeitig eine Anpassung durch den Nutzer zu ermöglichen, hat toongether Gemini 2.5 Flash Image verwendet, um eine ausgefeilte mehrstufige Pipeline zu erstellen:
- Stilanalysen und Referenzgenerierung:Wenn ein Nutzer eine neue Figur erstellt, stellt die App dem Modell eine kuratierte Liste von Referenzfiguren zur Verfügung, um den gewünschten Stil zu analysieren. Anhand einer einfachen Textbeschreibung generiert das Modell ein Referenzbild mit einer „neutralen Pose“ für diese neue Originalfigur.
- Asset-Packs und Posengenerierung:Damit die Figur in eine Geschichte eingefügt werden kann, verwendet Toongether „Asset-Packs“ – gruppierte Listen mit Beschreibungen für gewünschte Posen und Anwendungsfälle. Durch die Verwendung eines Anweisungsprompts zusammen mit dem neutralen Referenzbild können sie Gemini 2.5 Flash Image anweisen, bestimmte Szenarien zu generieren, ohne die visuelle Identität der Figur zu verlieren.
- Szenenkomposition:Für Hintergründe und andere Elemente stellt das Team Referenzbilder zur Verfügung, um den richtigen Stil zu ermitteln und für einheitliche Panels zu sorgen.
„Dank der erweiterten Bearbeitungs- und Anweisungsfunktionen von Gemini 2.5 Flash Image konnten wir alle unsere Anwendungsfälle abdecken“, erklärt Samir Nasser Eddine, Mitbegründer von toongether. „Sie ist jetzt ein wesentlicher Bestandteil unserer Pipelines zur Bildgenerierung.“
Wie geht es mit Toongether weiter?
Nachdem die Grundlagen geschaffen sind, konzentriert sich das toongether-Team nun auf erweiterte narrative Funktionen, die bisher als zu ressourcenintensiv galten. Sie planen, Gemini-Modelle zu verwenden, um komplexe Interaktionen zwischen mehreren Charakteren in einem einzigen Panel zu unterstützen und eine größere Vielfalt an Zeichenstilen einzuführen.
Die Geschichte von toongether zeigt, wie die Gemini API der nächsten Generation von Entwicklern hilft, komplexe Modellstacks zu verwalten und anspruchsvolle, konsistente kreative Tools zu entwickeln, die für Gelegenheitsnutzer skalierbar sind.
Wenn Sie mit der Entwicklung eigener kreativer Anwendungen mit Gemini-Modellen beginnen möchten, lesen Sie unsere API-Dokumentation.