Ndaj

12 DHJETOR 2025

Toongether ruan qëndrueshmërinë e stilit artistik duke përdorur Imazhin Flash Gemini 2.5

Samir Nasser Eddine

Bashkëthemelues i toongether

Guillaume Vernade

Avokat i Lartë i Zhvilluesve të DeepMind

Heroi i shfaqjes Toongether

Rritja e inteligjencës artificiale gjeneruese ka hapur kufij të rinj për shprehjen krijuese, duke u lejuar zhvilluesve të ndërtojnë mjete që i shndërrojnë përdoruesit e rastësishëm në artistë. Megjithatë, për artin sekuencial si komikët, sfida nuk është vetëm gjenerimi i një imazhi të vetëm të mirë - por gjenerimi i personazheve, stileve dhe rrëfimeve të qëndrueshme në dhjetëra panele.

Toongether, kompania që qëndron pas aplikacionit webcomics, po e përballon këtë sfidë drejtpërdrejt. Misioni i tyre është të demokratizojnë rrëfimin vizual, duke ofruar një platformë ku përdoruesit e rastësishëm jo vetëm që mund të lexojnë, por edhe të krijojnë dhe ndajnë komikët e tyre direkt nga pajisjet e tyre mobile. Duke integruar Gemini 2.5 Flash Image në rrjetin e tyre të krijimit, ata po i ndihmojnë përdoruesit të kapërcejnë pengesat teknike të vizatimit, duke i mundësuar një komuniteti të ri rrëfimtarësh të bashkëkrijojnë.

Arritja e qëndrueshmërisë në shkallë të gjerë

Krijimi i një komiku kërkon qëndrueshmëri të rreptë. Personazhet duhet të mbeten të dallueshëm në poza, veshje dhe shprehje të ndryshme të fytyrës, duke iu përmbajtur njëkohësisht një stili të unifikuar artistik.

Fillimisht, ekipi i toongether mbështetej në një grup kompleks që përfshinte një model të përmirësuar Stable Diffusion XL të përmirësuar me mjete si ControlNet dhe IPAdapters. Ndërsa kjo dha rezultate cilësore, ajo luftoi me vonesën dhe fleksibilitetin - pengesa të mëdha për ndërtuesit e celularëve. Gjenerimi i një imazhi të vetëm zgjati midis 20 dhe 30 sekondave, gjë që është shumë e ngadaltë për një përvojë përdoruesi pa probleme. Për më tepër, shtimi i mbështetjes për poza ose stile të reja vizatimi kërkoi përpjekje të konsiderueshme inxhinierike, duke kufizuar aftësinë e tyre për të përsëritur shpejt.

Orkestrimi i tubacioneve komplekse me Gemini

Për të kapërcyer këto pengesa, toongether e migroi tubacionin e tyre kryesor të gjenerimit të imazheve në Gemini API. Ata zgjodhën Gemini 2.5 Flash Image—i njohur edhe si “Nano Banana” për shpejtësinë dhe shkathtësinë e tij—i cili ofronte aftësi superiore të redaktimit dhe ndjekjes së udhëzimeve të nevojshme për të trajtuar detyra komplekse të gjenerimit me shumë hapa.

Tranzicioni përshpejtoi ndjeshëm shpejtësinë e zhvillimit të tyre, me ekipin që kaloi nga një prototip në një implementim të plotë prodhimi në vetëm dy javë.

Për të ruajtur qëndrueshmërinë e personazheve, duke lejuar njëkohësisht personalizimin e përdoruesve, toongether përdori Gemini 2.5 Flash Image për të ndërtuar një tubacion të sofistikuar shumëfazësh:

  • Analiza e stilit dhe gjenerimi i referencave: Kur një përdorues krijon një personazh të ri, aplikacioni i ofron modelit një listë të kuruar të personazheve të referencës për të analizuar stilin e dëshiruar. Bazuar në një përshkrim të thjeshtë tekstual, modeli gjeneron një imazh reference "pozë neutrale" për këtë personazh të ri origjinal.
  • Paketa asetesh dhe gjenerimi i pozave: Për ta futur atë personazh në një histori, toongether përdor "paketa asetesh" - lista të grupuara përshkrimesh për pozat dhe rastet e përdorimit të dëshiruara. Duke përdorur një udhëzim së bashku me imazhin neutral të referencës, ata mund të udhëzojnë Gemini 2.5 Flash Image të gjenerojë skenarë specifikë pa humbur identitetin vizual të personazhit.
  • Kompozimi i skenës: Për sfondet dhe elementët e tjerë, ekipi ofron imazhe referuese për të nxjerrë stilin e saktë të artit, duke siguruar panele kohezive.

HubX

“Duke shfrytëzuar aftësitë e avancuara të redaktimit dhe udhëzimit të Gemini 2.5 Flash Image, ne ishim në gjendje të mbështesnim të gjitha rastet tona të përdorimit”, shpjegon Samir Nasser Eddine, bashkëthemelues i toongether. “Tani është një pjesë thelbësore e tubacioneve tona të gjenerimit të imazheve.”

Çfarë vjen më pas së bashku

Me elementët themelorë në vend, ekipi i toongether po shikon drejt karakteristikave të përparuara narrative që më parë konsideroheshin shumë intensive në burime. Ata planifikojnë të përdorin modelet Gemini për të mbështetur ndërveprimet komplekse midis personazheve të shumtë brenda një paneli të vetëm dhe për të prezantuar një larmi më të gjerë stilesh vizatimi.

Udhëtimi i toongether nxjerr në pah se si Gemini API ndihmon grupin e ardhshëm të ndërtuesve të kalojnë përtej menaxhimit të pirgjeve komplekse të modeleve në ndërtimin e mjeteve krijuese të sofistikuara dhe të qëndrueshme që shkallëzohen për përdoruesit e rastësishëm.

Për të filluar ndërtimin e aplikacioneve tuaja krijuese me modelet Gemini, lexoni dokumentacionin tonë të API-t .

Sintezia

Synthesia përdor Veo 2 për të krijuar përvoja avatarësh me inteligjencë artificiale me cilësi studioje.