১২ ডিসেম্বর, ২০২৫
টুংদার জেমিনি ২.৫ ফ্ল্যাশ ইমেজ ব্যবহার করে শিল্প শৈলীর ধারাবাহিকতা বজায় রাখে

জেনারেটিভ এআই-এর উত্থান সৃজনশীল প্রকাশের জন্য নতুন সীমানা খুলে দিয়েছে, যার ফলে ডেভেলপাররা এমন সরঞ্জাম তৈরি করতে সক্ষম হয়েছে যা নৈমিত্তিক ব্যবহারকারীদের শিল্পীতে পরিণত করে। তবে, কমিক্সের মতো ধারাবাহিক শিল্পের জন্য, চ্যালেঞ্জটি কেবল একটি ভাল চিত্র তৈরি করা নয় - এটি কয়েক ডজন প্যানেল জুড়ে ধারাবাহিক চরিত্র, শৈলী এবং আখ্যান তৈরি করা।
ওয়েবকমিক্স অ্যাপের পেছনের কোম্পানি টুংদার এই চ্যালেঞ্জ মোকাবেলা করছে। তাদের লক্ষ্য হল ভিজ্যুয়াল স্টোরিটেলিংকে গণতান্ত্রিক করা, এমন একটি প্ল্যাটফর্ম প্রদান করা যেখানে সাধারণ ব্যবহারকারীরা কেবল পড়তেই পারবেন না বরং তাদের মোবাইল ডিভাইস থেকে সরাসরি তাদের নিজস্ব কমিক তৈরি এবং শেয়ার করতে পারবেন। তাদের তৈরির পাইপলাইনে জেমিনি 2.5 ফ্ল্যাশ ইমেজকে একীভূত করে, তারা ব্যবহারকারীদের অঙ্কনের প্রযুক্তিগত বাধা অতিক্রম করতে সাহায্য করছে, গল্পকারদের একটি নতুন সম্প্রদায়কে সহ-সৃষ্টি করতে সক্ষম করছে।
স্কেলে ধারাবাহিকতা অর্জন
একটি কমিক তৈরির জন্য কঠোর ধারাবাহিকতা প্রয়োজন। চরিত্রগুলিকে বিভিন্ন ভঙ্গি, পোশাক এবং মুখের অভিব্যক্তির মাধ্যমে চেনা যায়, একই সাথে একটি ঐক্যবদ্ধ শিল্পশৈলী মেনে চলতে হবে।
প্রাথমিকভাবে, টুনগেদার টিম একটি জটিল স্ট্যাকের উপর নির্ভর করেছিল যার মধ্যে একটি সূক্ষ্ম-সুরযুক্ত স্টেবল ডিফিউশন এক্সএল মডেল ছিল যা কন্ট্রোলনেট এবং আইপিএডাপ্টারের মতো সরঞ্জামগুলির সাথে উন্নত ছিল। যদিও এটি গুণগত ফলাফল প্রদান করেছিল, এটি লেটেন্সি এবং নমনীয়তার সাথে লড়াই করেছিল - মোবাইল নির্মাতাদের জন্য প্রধান বাধা। একটি একক চিত্র তৈরি করতে 20 থেকে 30 সেকেন্ড সময় লেগেছিল, যা একটি নিরবচ্ছিন্ন ব্যবহারকারীর অভিজ্ঞতার জন্য খুব ধীর। তদুপরি, নতুন ভঙ্গি বা অঙ্কন শৈলীর জন্য সমর্থন যোগ করার জন্য উল্লেখযোগ্য ইঞ্জিনিয়ারিং প্রচেষ্টার প্রয়োজন ছিল, যা দ্রুত পুনরাবৃত্তি করার ক্ষমতা সীমিত করেছিল।
জেমিনির সাথে জটিল পাইপলাইনগুলি সাজানো
এই বাধাগুলি কাটিয়ে ওঠার জন্য, তারা তাদের মূল চিত্র তৈরির পাইপলাইনটি জেমিনি এপিআই-তে স্থানান্তরিত করে। তারা জেমিনি ২.৫ ফ্ল্যাশ ইমেজ বেছে নেয় - যা এর গতি এবং তত্পরতার জন্য "ন্যানো ব্যানানা" নামেও পরিচিত - যা জটিল, বহু-পদক্ষেপ তৈরির কাজগুলি পরিচালনা করার জন্য প্রয়োজনীয় উচ্চতর সম্পাদনা এবং নির্দেশনা-অনুসরণ ক্ষমতা প্রদান করে।
এই রূপান্তরটি তাদের উন্নয়নের গতি নাটকীয়ভাবে ত্বরান্বিত করে, দলটি মাত্র দুই সপ্তাহের মধ্যে একটি প্রোটোটাইপ থেকে পূর্ণ উৎপাদন বাস্তবায়নে এগিয়ে যায়।
ব্যবহারকারীর কাস্টমাইজেশনের সুযোগ করে দেওয়ার সাথে সাথে চরিত্রের ধারাবাহিকতা বজায় রাখার জন্য, টুঙ্গেদার একটি অত্যাধুনিক মাল্টি-স্টেজ পাইপলাইন তৈরি করতে জেমিনি 2.5 ফ্ল্যাশ ইমেজ ব্যবহার করেছে:
- স্টাইল বিশ্লেষণ এবং রেফারেন্স জেনারেশন: যখন একজন ব্যবহারকারী একটি নতুন চরিত্র তৈরি করেন, তখন অ্যাপটি পছন্দসই স্টাইল বিশ্লেষণ করার জন্য মডেলটিকে রেফারেন্স অক্ষরের একটি কিউরেটেড তালিকা প্রদান করে। একটি সাধারণ টেক্সট বর্ণনার উপর ভিত্তি করে, মডেলটি এই নতুন মূল চরিত্রের জন্য একটি "নিরপেক্ষ ভঙ্গি" রেফারেন্স ইমেজ তৈরি করে।
- সম্পদ প্যাক এবং ভঙ্গি তৈরি: চরিত্রটিকে গল্পে তুলে ধরার জন্য, টুনগেদার "সম্পদ প্যাক" ব্যবহার করে - পছন্দসই ভঙ্গি এবং ব্যবহারের ক্ষেত্রে বর্ণনার গোষ্ঠীবদ্ধ তালিকা। নিরপেক্ষ রেফারেন্স চিত্রের সাথে একটি নির্দেশিকা প্রম্পট ব্যবহার করে, তারা জেমিনি 2.5 ফ্ল্যাশ চিত্রকে চরিত্রের ভিজ্যুয়াল পরিচয় না হারিয়ে নির্দিষ্ট পরিস্থিতি তৈরি করতে নির্দেশ দিতে পারে।
- দৃশ্যের রচনা: পটভূমি এবং অন্যান্য উপাদানের জন্য, দলটি সঠিক শিল্প শৈলী অনুমান করার জন্য রেফারেন্স চিত্র সরবরাহ করে, যাতে সমন্বিত প্যানেলগুলি নিশ্চিত করা যায়।

"জেমিনি ২.৫ ফ্ল্যাশ ইমেজের উন্নত সম্পাদনা এবং নির্দেশনা ক্ষমতা ব্যবহার করে, আমরা আমাদের সমস্ত ব্যবহারের ক্ষেত্রে সহায়তা করতে সক্ষম হয়েছি," টুংগেদারের সহ-প্রতিষ্ঠাতা সামির নাসের এডাইন ব্যাখ্যা করেন। "এটি এখন আমাদের ইমেজ জেনারেশন পাইপলাইনের একটি অপরিহার্য অংশ।"
টুঙ্গেদারের জন্য পরবর্তী কী?
তাদের মৌলিক উপাদানগুলি স্থাপনের সাথে সাথে, টুনগেদার টিম উন্নত আখ্যান বৈশিষ্ট্যগুলির দিকে নজর দিচ্ছে যা পূর্বে খুব বেশি সম্পদ-নিবিড় বলে বিবেচিত হত। তারা একটি একক প্যানেলের মধ্যে একাধিক চরিত্রের মধ্যে জটিল মিথস্ক্রিয়া সমর্থন করার জন্য এবং অঙ্কন শৈলীর বিস্তৃত বৈচিত্র্য প্রবর্তনের জন্য জেমিনি মডেলগুলি ব্যবহার করার পরিকল্পনা করেছে।
টুংগেদারের যাত্রা তুলে ধরে যে কীভাবে জেমিনি এপিআই পরবর্তী নির্মাতাদের জটিল মডেল স্ট্যাক পরিচালনার বাইরে অত্যাধুনিক, ধারাবাহিক সৃজনশীল সরঞ্জাম তৈরিতে সহায়তা করে যা সাধারণ ব্যবহারকারীদের জন্য স্কেল করে।
জেমিনি মডেলগুলি দিয়ে আপনার নিজস্ব সৃজনশীল অ্যাপ্লিকেশন তৈরি শুরু করতে, আমাদের API ডকুমেন্টেশন পড়ুন।
সংশ্লেষণ
স্টুডিও মানের এআই অবতার অভিজ্ঞতা তৈরি করতে সিনথেসিয়া ভিও ২ ব্যবহার করে।