টেক্সট প্রম্পটের বাইরে: জেমিনি ফ্ল্যাশ 2.5 দিয়ে কার্টহুইল কীভাবে পোজ-বিশ্বস্ত 3D প্রজন্ম তৈরি করেছে

বিশাল ধর্মাধিকারী

পণ্য সমাধান প্রকৌশলী

জোনাথন জার্ভিস

সিইও

অ্যান্ড্রু কার

সহ-প্রতিষ্ঠাতা এবং প্রধান বিজ্ঞানী

জেনারেটিভ মডেলগুলি শিল্পী এবং ডিজাইনারদের জন্য নতুন সম্ভাবনা তৈরি করেছে। তবে, পেশাদার নির্মাতাদের জন্য, একটি নির্দিষ্ট সৃজনশীল দৃষ্টিভঙ্গিকে একটি জেনারেট করা ছবিতে রূপান্তর করা একটি গুরুত্বপূর্ণ চ্যালেঞ্জ। শুধুমাত্র টেক্সট-প্রম্পটিং প্রায়শই "স্লট মেশিন" এর মতো মনে হতে পারে, যা চরিত্রের ভঙ্গি, ক্যামেরার কোণ এবং রচনার উপর সুনির্দিষ্ট নিয়ন্ত্রণ অর্জন করা কঠিন করে তোলে।

3D AI-নেটিভ গেম এবং মিডিয়া তৈরির প্ল্যাটফর্ম Cartwheel , Google-এর উন্নত মডেলগুলির উপরে একটি অভিনব সমাধান তৈরি করে এই সমস্যার সমাধান করছে, এই ক্ষেত্রে Gemini 2.5 Flash Image Nano Banana। Cartwheel Studio-তে তাদের "Pose Mode" বৈশিষ্ট্যটি 3D-নেটিভ নিয়ন্ত্রণ অন্তর্ভুক্ত করে সহজ টেক্সট-টু-ইমেজ জেনারেশনের বাইরেও যায়, যা নির্মাতাদের তাদের আউটপুটের উপর সরাসরি, পুনরাবৃত্তিমূলক নিয়ন্ত্রণ দেয়।

চ্যালেঞ্জ: উদ্দেশ্য এবং আউটপুটের মধ্যে ব্যবধান পূরণ করা

পেশাদার সৃজনশীল কর্মপ্রবাহে, নির্ভুলতা অপরিহার্য। একজন শিল্পী, বিজ্ঞাপনদাতা, অথবা গেম ডিজাইনারকে প্রায়শই একটি নির্দিষ্ট ভঙ্গিতে অথবা একটি নির্দিষ্ট কোণ থেকে একটি চরিত্র তৈরি করতে হয় যা স্টোরিবোর্ড বা প্রচারণার সংক্ষিপ্তসারের সাথে মানানসই।

"উচ্চ স্তরে, ইমেজ জেনারেটর নিয়ন্ত্রণ করা কঠিন," কার্টহুইলের সহ-প্রতিষ্ঠাতা জোনাথন জার্ভিস বলেন। "আপনার যে দৃষ্টিভঙ্গি আছে তা অর্জন করা কঠিন। আমরা সবসময় চেয়েছি যে আপনি কেবল ভেতরে ঢুকে সরাসরি চরিত্রটি পরিচালনা করতে পারেন।"

সরাসরি কারসাজির এই প্রয়োজনীয়তার ফলে কার্টহুইল একটি মাল্টিমোডাল পাইপলাইন তৈরি করতে বাধ্য হয় যা 3D পোজিং, টেক্সট প্রম্পটিং এবং একাধিক AI মডেলকে একসাথে কাজ করার জন্য একীভূত করে।

সমাধান: ভঙ্গি-বিশ্বাসী প্রজন্মের জন্য একটি বহু-মডেল পাইপলাইন

শুধুমাত্র টেক্সটের উপর নির্ভর না করে, কার্টহুইলের পোজ মোড ব্যবহারকারীকে একটি 3D ম্যানেকুইন উপস্থাপন করে। ব্যবহারকারী সরাসরি ম্যানেকুইনের অঙ্গ-প্রত্যঙ্গে ক্লিক করে টেনে আনতে পারেন একটি নির্দিষ্ট পোজ তৈরি করতে এবং ভার্চুয়াল ক্যামেরাটিকে যেকোনো কোণে সামঞ্জস্য করতে। এই 3D দৃশ্যটি তখন জেনারেটিভ প্রক্রিয়ার জন্য একটি প্রাথমিক ইনপুট হয়ে ওঠে।

প্রযুক্তিগত কর্মপ্রবাহ নিম্নরূপ:

জেমিনি ২.৫ ফ্ল্যাশ দিয়ে পোজ লেবেলিং। প্রথমে, পোজ দেওয়া ৩ডি ম্যানেকুইনের একটি স্ক্রিনশট জেমিনি ২.৫ ফ্ল্যাশে পাঠানো হয়। কার্টহুইল এই ধাপের জন্য ২.৫ ফ্ল্যাশ ব্যবহার করে, কারণ এর গতি রিয়েল-টাইম ক্রিয়েটিভ টুলের কম-লেটেন্সির প্রয়োজনীয়তার জন্য আদর্শ। মডেলটির কাজ হল "জাম্পিং পোজে একটি চরিত্র" অথবা "একটি চরিত্র স্যালুট করছে" এর মতো একটি সাধারণ টেক্সট লেবেল ফিরিয়ে দেওয়া।
মাল্টিমোডাল প্রম্পট অ্যাসেম্বলি। এই 2.5 ফ্ল্যাশ-জেনারেটেড পোজ লেবেলটি স্বয়ংক্রিয়ভাবে ব্যবহারকারীর নিজস্ব বর্ণনামূলক টেক্সট প্রম্পটের সাথে মিলিত হয় (যেমন, "ফুলের ক্ষেতে একটি রোবট")।
শর্তসাপেক্ষ চিত্র তৈরি। অবশেষে, এই সম্মিলিত পাঠ্য প্রম্পটটি একটি উচ্চ-বিশ্বস্ত, ভঙ্গি-বিশ্বস্ত চিত্র মডেল, জেমিনি 2.5 ফ্ল্যাশ চিত্রের কাছে পাঠানো হয়, যার সাথে 3D ভঙ্গির মূল স্ক্রিনশটও থাকে। এই মাল্টিমোডাল প্রম্পট - যার মধ্যে ভঙ্গির চিত্র এবং বিস্তারিত পাঠ্য বিবরণ উভয়ই অন্তর্ভুক্ত থাকে - জেমিনি 2.5 ফ্ল্যাশ চিত্রকে এমন একটি চিত্র তৈরি করতে শর্তসাপেক্ষ করে যা ভঙ্গি এবং ক্যামেরার কোণকে কঠোরভাবে মেনে চলে, একই সাথে পাঠ্য থেকে শৈল্পিক শৈলী, চরিত্র এবং দৃশ্যের বিবরণ প্রয়োগ করে।

মডেলগুলির এই শৃঙ্খল - ভিজ্যুয়াল বিশ্লেষণ এবং লেবেলিংয়ের জন্য 2.5 ফ্ল্যাশ এবং চূড়ান্ত, শর্তযুক্ত রেন্ডারিংয়ের জন্য 2.5 ফ্ল্যাশ চিত্র ব্যবহার করে - কার্টহুইলকে একটি অনন্য কর্মপ্রবাহ অফার করার অনুমতি দেয় যা 3D সফ্টওয়্যারের স্বজ্ঞাত নিয়ন্ত্রণ এবং জেনারেটিভ AI এর সৃজনশীল শক্তিকে একত্রিত করে।

ফলাফল: যেকোনো কোণ থেকে চরিত্রের ধারাবাহিকতা আনলক করা

এই পদ্ধতিটি এমন ছবি তৈরিতে কার্যকর প্রমাণিত হয়েছে যা আগে তৈরি করা কঠিন ছিল। "যেকোনো কোণ থেকে চরিত্র রেন্ডার করা কিন্তু সামনের অংশ অন্য কোনও মডেলে কাজ করেনি," কার্টহুইলের সহ-প্রতিষ্ঠাতা অ্যান্ড্রু কার উল্লেখ করেছেন। "ক্যামেরা ঘোরানোর সাথে সাথেই এটি ভেঙে পড়ে।"

যেহেতু বেশিরভাগ ছবির মডেল এমন ডেটার উপর প্রশিক্ষিত থাকে যা সামনের চরিত্রগুলিকে অত্যধিকভাবে তুলে ধরে, তাই তারা কম সাধারণ রচনা তৈরি করতে লড়াই করে, যেমন হাই-এঙ্গেল শট বা পিছন থেকে দৃশ্য। সরাসরি ভিজ্যুয়াল ইনপুট হিসাবে ভঙ্গি প্রদান করে, কার্টহুইলের টুল এই প্রশিক্ষণ ডেটা পক্ষপাতকে বাইপাস করে, একজন শিল্পীকে তাদের পছন্দের যেকোনো কোণ থেকে সামঞ্জস্যপূর্ণ চরিত্র তৈরি করতে দেয়।

এই কর্মপ্রবাহ সৃজনশীল প্রক্রিয়াকে উল্লেখযোগ্যভাবে ত্বরান্বিত করে। যে কাজটির জন্য আগে ঘন্টার পর ঘন্টা পুনরাবৃত্তিমূলক প্রম্পটিং বা 3D শিল্পীর দ্বারা ম্যানুয়াল কম্পোজিটিং প্রয়োজন হত, তা এখন কয়েক সেকেন্ডের মধ্যেই সম্পন্ন করা সম্ভব।

এরপর কী: স্ট্যাটিক ছবি থেকে জেনারেটিভ ভিডিও পর্যন্ত

কার্টহুইল ইতিমধ্যেই এই প্রযুক্তির পরবর্তী পদক্ষেপগুলি পরিকল্পনা করছে। দলটি ১৫০,০০০ পূর্ব-শ্রেণীবদ্ধ ভঙ্গির একটি লাইব্রেরি সংহত করার জন্য পরীক্ষা-নিরীক্ষা করছে যা ব্যবহারকারীরা অনুসন্ধান এবং পরিমার্জন করতে পারে, কর্মপ্রবাহকে আরও দ্রুততর করে।

দীর্ঘমেয়াদী দৃষ্টিভঙ্গি হল এই পোজ-টু-পিক্সেল পাইপলাইনটিকে গতিশীল করা। একই 3D পোজ এবং রেন্ডার করা ছবি ভিও-এর মতো ভিডিও-টু-ভিডিও মডেলের জন্য স্টার্ট ফ্রেম হিসেবে কাজ করতে পারে। এটি একজন স্রষ্টাকে একটি চরিত্র পোজ করতে, যেকোনো স্টাইলে রেন্ডার করতে এবং তারপর একটি টেক্সট প্রম্পট ব্যবহার করে এটিকে অ্যানিমেট করতে দেয়, যার ফলে 3D পোজিং থেকে চূড়ান্ত, স্টাইলাইজড অ্যানিমেশন পর্যন্ত একটি নির্বিঘ্ন কর্মপ্রবাহ তৈরি হয়।

জেমিনি পরিবারের মতো মাল্টিমোডাল মডেলগুলির উপরে নির্মাণের মাধ্যমে, কার্টহুইল প্রদর্শন করছে যে কীভাবে ডেভেলপাররা অত্যাধুনিক সরঞ্জাম তৈরি করতে পারে যা শিল্পীদের প্রয়োজনীয় নিয়ন্ত্রণ এবং ধারাবাহিকতা প্রদান করে, জেনারেটিভ এআইকে সুযোগের হাতিয়ার থেকে সুনির্দিষ্ট সৃজনশীল অভিপ্রায়ের দিকে নিয়ে যায়।

প্রমিজ স্টুডিওস

প্রমিজ স্টুডিওস জেমিনি ২.৫ প্রো এবং ভিও ২ ব্যবহার করে চলচ্চিত্র নির্মাণে রূপান্তর ঘটায়, যার ফলে গভীর স্ক্রিপ্ট বিশ্লেষণ, এআই-সহায়তাপ্রাপ্ত স্টোরিবোর্ডিং এবং প্রসঙ্গ-সচেতন ভিজ্যুয়াল ট্রিটমেন্ট সম্ভব হয়।

টেক্সট প্রম্পটের বাইরে: জেমিনি ফ্ল্যাশ 2.5 দিয়ে কার্টহুইল কীভাবে পোজ-বিশ্বস্ত 3D প্রজন্ম তৈরি করেছে

চ্যালেঞ্জ: উদ্দেশ্য এবং আউটপুটের মধ্যে ব্যবধান পূরণ করা

সমাধান: ভঙ্গি-বিশ্বাসী প্রজন্মের জন্য একটি বহু-মডেল পাইপলাইন

ফলাফল: যেকোনো কোণ থেকে চরিত্রের ধারাবাহিকতা আনলক করা

এরপর কী: স্ট্যাটিক ছবি থেকে জেনারেটিভ ভিডিও পর্যন্ত

সম্পর্কিত কেস স্টাডি