শেয়ার করুন

২০ মে, ২০২৫

টুনসুত্র কমিক্সকে জীবন্ত করে তুলেছে: জেমিনি এপিআই, জেমিনি ২.৫ প্রো প্রিভিউ এবং লিরিয়া ২ দ্বারা চালিত একটি নিমজ্জিত পড়ার অভিজ্ঞতা

শারদ দেবরাজন | বিশাল আনন্দ

টুনসুত্রের প্রতিষ্ঠাতারা

অবনীত সিং

প্রোডাক্ট ম্যানেজার, গুগল পার্টনার ইনোভেশন

কার্টহুইল শোকেস হিরো

ওয়েবকমিক্স এবং গ্রাফিক উপন্যাসের জন্য ভারতের বৃহত্তম গন্তব্য, টুনসূত্র, বিশ্বব্যাপী দর্শকদের ওয়েবকমিক্সের বিশাল আখ্যান জগতের সাথে সংযুক্ত করার লক্ষ্যে কাজ করছে, বিশেষ করে ভারতীয় ভাষাগুলিতে বিশ্বমানের গল্পগুলিকে অ্যাক্সেসযোগ্য করে তোলার উপর। দর্শকদের সম্পৃক্ততা আরও গভীর করার লক্ষ্যে, টুনসূত্র জিজ্ঞাসা করেছিলেন: কীভাবে আমরা ঐতিহ্যবাহী কমিক পড়ার অভিজ্ঞতাকে একটি নিমগ্ন, সিনেমাটিক যাত্রায় রূপান্তরিত করতে পারি যেখানে পাঠকদের স্বপ্নের ভাষায় কণ্ঠস্বর, সঙ্গীত এবং গল্প স্বাভাবিকভাবেই প্রবাহিত হয়?

ইন্টারেক্টিভ গল্প বলার পরবর্তী অধ্যায় তৈরি করা

এই প্রশ্নটিই টুনসুত্রার মূল লক্ষ্য হয়ে ওঠে। তাদের সম্প্রদায়ের প্রতিক্রিয়া গভীর সম্পৃক্ততা এবং বৃহত্তর অ্যাক্সেসযোগ্যতার আকাঙ্ক্ষাকে তুলে ধরে। এআই-এর অপরিসীম সম্ভাবনাকে স্বীকৃতি দিয়ে এবং গুগলের এআই ফিউচারস ফান্ডের সহায়তায়, টুনসুত্রা গুগলের ল্যাবস এবং পার্টনার ইনোভেশন টিমের সাথে অংশীদারিত্ব করেছে। একসাথে, তারা বিশ্বব্যাপী ভক্তদের জন্য ওয়েবকমিক অভিজ্ঞতা পুনঃউদ্ভাবনের জন্য জেমিনি এপিআই ব্যবহার করছে, যার মধ্যে জেমিনি 2.5 প্রো প্রিভিউ এবং লিরিয়া 2 (গুগল ডিপমাইন্ডের মিউজিক জেনারেশন মডেল) রয়েছে।

গুগল আই/ও-তে উন্মোচিত এই সহযোগিতাটি একটি এআই-চালিত কমিক অভিজ্ঞতা প্রদর্শন করে যেখানে গল্পগুলি কেবল পৃষ্ঠায় বসে থাকে না; তারা সাড়া দেয় এবং জড়িত হয়, স্থির চিত্রগুলিকে গতিশীল অডিও আখ্যানে রূপান্তরিত করে:

  • অভিযোজিত এআই ন্যারেশন: জেমিনি ২.৫ প্রো প্রিভিউ এআই ন্যারেশন তৈরি করে যা পড়ার গতির সাথে প্রবাহিত হয়, স্বতন্ত্র কণ্ঠস্বরের মাধ্যমে চরিত্রগুলিকে জীবন্ত করে তোলে। এটি বিশেষ করে ভারতীয় পাঠকদের জন্য প্রভাবশালী, যেখানে ভাষার সাংস্কৃতিক সূক্ষ্মতা ব্যাপকভাবে পরিবর্তিত হয়। জেমিনি ২.৫ প্রো এর অভিযোজিত এবং বহুভাষিক ক্ষমতা, টুনসূত্রের মালিকানাধীন চরিত্র প্রসঙ্গ ইঞ্জিনের সাথে মিলিত হয়ে, ধারাবাহিক, সূক্ষ্ম গল্প বলার বিষয়টি নিশ্চিত করে।
  • গতিশীল সাউন্ডস্কেপ: জেমিনি ২.৫ প্রো প্রিভিউ-এর মাল্টিমোডাল বোঝাপড়া এবং লিরিয়া ও জেমিনির নেটিভ অডিও জেনারেশন ক্ষমতার মাধ্যমে, প্ল্যাটফর্মটি বিশেষ সঙ্গীত, ভয়েস-ওভার এবং নড়াচড়ার শব্দ সহ নিমজ্জিত সাউন্ডস্কেপ তৈরি করে - তরবারির ঝনঝন শব্দ থেকে শুরু করে একটি ব্যস্ত বাজারের পরিবেশ পর্যন্ত।
  • উন্নত ইন্টারঅ্যাক্টিভিটি: জেমিনি ২.৫ প্রো প্রিভিউ-চালিত উপাদানগুলি পাঠকদের অনন্য সংলাপ শুরু করতে, লুকানো বিবরণ অন্বেষণ করতে বা সূক্ষ্মভাবে বর্ণনামূলক থ্রেডগুলিকে প্রভাবিত করতে দেয়, যা বৈচিত্র্যময় পাঠের অভিজ্ঞতা নিশ্চিত করে।

প্রযুক্তিগত বিবরণ

এই প্রকল্পটি ডিজিটাল কমিক্সের জন্য স্বয়ংক্রিয়ভাবে ইমারসিভ অডিও তৈরি করার জন্য একটি অভিনব পদ্ধতির প্রবর্তন করে, যা সিঙ্ক্রোনাইজড স্পেশিয়াল মেটাডেটা সহ সম্পূর্ণ। এর মূলে রয়েছে জেমিনি ২.৫ প্রো প্রিভিউয়ের উপর নির্মিত একটি মাল্টি-এজেন্ট আর্কিটেকচার, যার মধ্যে রয়েছে বিশেষায়িত এজেন্ট: কমিক কনটেক্সট এক্সট্র্যাক্টর, ন্যারেটর, মিউজিক কম্পোজার, মিউজিক ডিরেক্টর এবং সাউন্ড এফেক্টস এজেন্ট।

কর্মপ্রবাহ শুরু হয় কমিক কনটেক্সট এক্সট্র্যাক্টর এজেন্টের মাধ্যমে, যার মাধ্যমে একাধিক কমিক অধ্যায় বিশ্লেষণ করে একটি বিস্তৃত সারসংক্ষেপ, ধরণ এবং চরিত্রের বৈশিষ্ট্য তৈরি করা হয়। এরপর প্যানেলগুলিকে নির্দিষ্ট সীমানা দিয়ে বের করা হয়। ন্যারেটর এজেন্ট ট্রান্সক্রিপ্ট থেকে সংলাপগুলিকে এই প্যানেলগুলির সাথে সারিবদ্ধ করে, যা চরিত্রের প্রেক্ষাপট দ্বারা সমৃদ্ধ, জেমিনি নেটিভ অডিও দ্বারা কণ্ঠস্বরিত হয়। একই সাথে, মিউজিক কম্পোজার এজেন্ট, ফিল্ম স্কোরিং দ্বারা অনুপ্রাণিত হয়ে, জেমিনি 2.5 প্রো প্রিভিউ ব্যবহার করে অধ্যায় জুড়ে থিম এবং আবেগগুলি সনাক্ত করে, লিরিয়ার জন্য ব্যাকগ্রাউন্ড স্কোর তৈরি করার জন্য সঙ্গীত প্রম্পটে অনুবাদ করে। মিউজিক ডিরেক্টর এজেন্ট এই সঙ্গীতটিকে নির্দিষ্ট প্যানেলে ম্যাপ করে, যখন সাউন্ড এফেক্টস এজেন্ট একটি ডাটাবেস থেকে প্রাপ্ত প্রাসঙ্গিক সাউন্ড এফেক্ট ট্যাগগুলিতে প্যানেল ম্যাপ করে।

এই কর্মপ্রবাহটি একটি JSON ফাইলের মাধ্যমে শেষ হয় যেখানে প্যানেল স্থানাঙ্ক, ভয়েস-ওভার, সাউন্ড এফেক্ট এবং সিঙ্ক্রোনাইজড সঙ্গীতের বিবরণ থাকে, যা টুনসুত্রার ফ্রন্ট-এন্ডে সরবরাহ করা হয়।

একটি গুরুত্বপূর্ণ সাফল্য হল জেমিনির এই সিনেমাটিক অডিওটি ভারতীয় ভাষায় স্থানীয়ভাবে তৈরি করার ক্ষমতা, হিন্দি থেকে শুরু করে, যা টুনসূত্রের অ্যাক্সেসিবিলিটি মিশনকে আরও এগিয়ে নিয়ে যায়।

"জেমিনির বহুমুখী এবং বহুভাষিক ক্ষমতা কাজে লাগানোর জন্য এটি একটি মজাদার, উত্তেজনাপূর্ণ ব্যবহার। ছবি, চরিত্র, স্কেচ এবং থিমগুলিকে অর্থপূর্ণভাবে বোঝার জন্য গুগলের শক্তিশালী বৃহৎ ভাষা মডেল ব্যবহার করা একটি ইনপুট মিডিয়াকে এর মৌলিক বিষয়গুলিতে সংকুচিত করার জন্য একটি দুর্দান্ত প্রক্রিয়া। লিরিয়ার শক্তিশালী সঙ্গীত প্রজন্ম এবং জেমিনির স্থানীয় বক্তৃতা ক্ষমতা, বিশেষ করে ভারতীয় ভাষাগুলিতে, টুনসূত্রের সাথে অংশীদারিত্বে আমরা যে চূড়ান্ত অভিজ্ঞতা প্রদান করতে পেরেছি তা উন্নত করেছে।"

- অবনীত (প্রধানমন্ত্রী, গুগল পার্টনার ইনোভেশন)

গুগল আই/ও থেকে সাধারণ উপলব্ধতা পর্যন্ত

গুগল আই/ও প্রদর্শনী ছিল একটি অবিশ্বাস্য মাইলফলক, যা দেখিয়েছিল যে কীভাবে এআই মৌলিকভাবে ডিজিটাল কন্টেন্ট উন্নত করতে পারে। টুনসুত্রার জন্য, এটি কেবল প্রথম অধ্যায়।

আমাদের দল প্রায়শই বলে: "টুনসূত্রায় আমাদের লক্ষ্য হলো কমিক্সকে আরও আকর্ষণীয় এবং সর্বত্র, সকলের কাছে সহজলভ্য করে তোলা। গুগলের সাথে এই সহযোগিতা সেই লক্ষ্যে এক বিরাট পদক্ষেপ। এই গভীরভাবে নিমজ্জিত, এআই-চালিত পঠন অভিজ্ঞতা তৈরি করার ক্ষমতা সরাসরি আমাদের সম্প্রদায়ের প্রতিক্রিয়ার প্রতিফলন ঘটায় এবং আমাদের উদ্ভাবনকে ত্বরান্বিত করে। আমরা I/O-তে সাড়া পেয়ে রোমাঞ্চিত এবং টুনসূত্রা অ্যাপে এটিকে একীভূত করতে আগ্রহী, এমনকি অন্যান্য নির্মাতাদের ক্ষমতায়নের জন্য একটি সম্ভাব্য API অন্বেষণ করতেও আগ্রহী।"

টুনসুত্রা এখন তাদের মূল অ্যাপ্লিকেশনে এই বৈশিষ্ট্যগুলির পর্যায়ক্রমে একীভূতকরণের উপর মনোনিবেশ করছে, সম্প্রদায়ের প্রতিক্রিয়া মনোযোগ সহকারে শুনছে। তারা বিশ্বাস করে যে তারা কেবল তাদের প্ল্যাটফর্মকে সমৃদ্ধ করছে না বরং এআই-উন্নত কন্টেন্টের জন্য একটি নতুন নীলনকশা তৈরিতে সহায়তা করছে।

তৈরি করতে প্রস্তুত? জেমিনি এপিআই ডকুমেন্টেশনটি ঘুরে দেখুন এবং আজই গুগল এআই স্টুডিও দিয়ে শুরু করুন।

টুনসুত্রা গুগলের এআই ফিউচারস ফান্ডের একজন অংশগ্রহণকারী যা এআই-তে পরবর্তী কী তৈরি করতে উচ্চাকাঙ্ক্ষী স্টার্টআপগুলিতে বিনিয়োগ করে এবং তাদের সাথে সহযোগিতা করে।

হার্ভে

হার্ভে তার বিগল বেঞ্চ ব্যবহার করে জেমিনি ২.৫ প্রো-এর ব্যতিক্রমী ক্ষমতা প্রদর্শন করে, যাতে তারা যথাযথ পরিশ্রম এবং মামলা-মোকদ্দমার খসড়া তৈরির মতো জটিল আইনি যুক্তির কাজগুলি পরিচালনা করতে পারে।