20 মে, 2025
টুনসুত্র কমিকসকে প্রাণবন্ত করে: জেমিনি এপিআই, জেমিনি 2.5 প্রো প্রিভিউ এবং লিরিয়া 2 দ্বারা চালিত একটি নিমজ্জিত পড়ার অভিজ্ঞতা

ওয়েবকমিক্স এবং গ্রাফিক নভেলের জন্য ভারতের বৃহত্তম গন্তব্য টুনসুত্র, ওয়েবকমিক্সের বিশাল বর্ণনামূলক মহাবিশ্বের সাথে বিশ্বব্যাপী দর্শকদের সংযুক্ত করার একটি মিশনে রয়েছে, ভারতীয় ভাষায় বিশ্বমানের গল্পগুলিকে অ্যাক্সেসযোগ্য করে তোলার উপর একটি বিশেষ ফোকাস। শ্রোতাদের সম্পৃক্ততা আরও গভীর করার জন্য চালিত, টুনসুত্র জিজ্ঞাসা করেছিল: কীভাবে আমরা ঐতিহ্যবাহী কমিক পড়ার অভিজ্ঞতাকে একটি নিমগ্ন, সিনেমাটিক যাত্রায় রূপান্তর করতে পারি যেখানে পাঠকদের স্বপ্নের ভাষায় ভয়েস, সঙ্গীত এবং গল্প স্বাভাবিকভাবেই প্রবাহিত হয়?
ইন্টারেক্টিভ গল্প বলার পরবর্তী অধ্যায় তৈরি করা
এই প্রশ্নটি টুনসূত্রের মূল ফোকাস হয়ে উঠেছে। তাদের সম্প্রদায়ের প্রতিক্রিয়া গভীর সম্পৃক্ততা এবং বৃহত্তর অ্যাক্সেসযোগ্যতার জন্য আকাঙ্ক্ষাকে হাইলাইট করেছে। AI-এর অপার সম্ভাবনাকে স্বীকৃতি দিয়ে, এবং Google-এর AI ফিউচার ফান্ড দ্বারা সমর্থিত, Toonsutra Google-এর ল্যাব এবং পার্টনার ইনোভেশন টিমের সাথে অংশীদারিত্ব করেছে৷ বিশ্বব্যাপী ভক্তদের জন্য ওয়েবকমিক অভিজ্ঞতা পুনরায় উদ্ভাবনের জন্য তারা একসাথে, Gemini 2.5 Pro প্রিভিউ এবং Lyria 2 (Google DeepMind-এর মিউজিক জেনারেশন মডেল) সমন্বিত Gemini API-এর ব্যবহার করছে।
সহযোগিতা, Google I/O-তে উন্মোচিত, একটি AI-চালিত কমিক অভিজ্ঞতা প্রদর্শন করে যেখানে গল্পগুলি কেবল পৃষ্ঠায় বসে থাকে না; তারা সাড়া দেয় এবং জড়িত, স্থির চিত্রগুলিকে গতিশীল অডিও বর্ণনায় রূপান্তরিত করে:
- অভিযোজিত এআই বর্ণনা: জেমিনি 2.5 প্রো প্রিভিউ এআই বর্ণনা তৈরি করে যা পড়ার গতির সাথে প্রবাহিত হয়, স্বতন্ত্র কণ্ঠস্বর সহ অক্ষরকে জীবন্ত করে তোলে। এটি ভারতীয় পাঠকদের জন্য বিশেষভাবে প্রভাবশালী, যেখানে ভাষার সাংস্কৃতিক সূক্ষ্মতা ব্যাপকভাবে পরিবর্তিত হয়। Gemini 2.5 Pro-এর অভিযোজিত এবং বহুভাষিক ক্ষমতা, Toonsutra-এর মালিকানা চরিত্রের প্রসঙ্গ ইঞ্জিনের সাথে মিলিত, ধারাবাহিক, সংক্ষিপ্ত গল্প বলা নিশ্চিত করে।
- ডায়নামিক সাউন্ডস্কেপ: জেমিনি 2.5 প্রো প্রিভিউ-এর মাল্টিমোডাল বোঝাপড়া এবং লিরিয়া এবং জেমিনির নেটিভ অডিও জেনারেশন ক্ষমতার মাধ্যমে, প্ল্যাটফর্মটি বেস্পোক মিউজিক, ভয়েস-ওভার এবং মুভমেন্ট সাউন্ড সহ নিমগ্ন সাউন্ডস্কেপ তৈরি করে – একটি তলোয়ারের ঝনঝন থেকে শুরু করে একটি ব্যস্ত বাজারের পরিবেশ পর্যন্ত।
- বর্ধিত ইন্টারঅ্যাক্টিভিটি: জেমিনি 2.5 প্রো প্রিভিউ-চালিত উপাদানগুলি পাঠকদের অনন্য কথোপকথন ট্রিগার করতে, লুকানো বিবরণ অন্বেষণ করতে বা বর্ণনামূলক থ্রেডগুলিকে সূক্ষ্মভাবে প্রভাবিত করতে দেয়, বৈচিত্র্যময় পড়ার অভিজ্ঞতা নিশ্চিত করে।
প্রযুক্তিগত বিবরণ
এই প্রকল্পটি ডিজিটাল কমিক্সের জন্য স্বয়ংক্রিয়ভাবে নিমজ্জিত অডিও তৈরি করার জন্য একটি অভিনব পদ্ধতির প্রবর্তন করে, সিঙ্ক্রোনাইজড স্থানিক মেটাডেটা সহ সম্পূর্ণ। এর মূল অংশে রয়েছে জেমিনি 2.5 প্রো প্রিভিউ-এর উপর নির্মিত একটি মাল্টি-এজেন্ট আর্কিটেকচার, যার মধ্যে বিশেষ এজেন্ট রয়েছে: কমিক কনটেক্সট এক্সট্র্যাক্টর, ন্যারেটর, মিউজিক কম্পোজার, মিউজিক ডিরেক্টর এবং সাউন্ড ইফেক্টস এজেন্ট।
কমিক কনটেক্সট এক্সট্র্যাক্টর এজেন্ট একটি বিস্তৃত সংক্ষিপ্তসার, জেনার এবং চরিত্রের বৈশিষ্ট্যের জন্য একাধিক কমিক অধ্যায় বিশ্লেষণ করে ওয়ার্কফ্লো শুরু হয়। প্যানেল তারপর সংজ্ঞায়িত সীমানা সঙ্গে নিষ্কাশন করা হয়. ন্যারেটর এজেন্ট এই প্যানেলের সাথে ট্রান্সক্রিপ্ট থেকে সংলাপ সারিবদ্ধ করে, যা চরিত্রের প্রসঙ্গ দ্বারা সমৃদ্ধ, জেমিনি নেটিভ অডিও দ্বারা কণ্ঠ দেওয়া হয়। একইসঙ্গে, মিউজিক কম্পোজার এজেন্ট, ফিল্ম স্কোরিং দ্বারা অনুপ্রাণিত হয়ে, অধ্যায় জুড়ে থিম এবং আবেগগুলি বোঝার জন্য জেমিনি 2.5 প্রো প্রিভিউ ব্যবহার করে, লিরিয়াকে ব্যাকগ্রাউন্ড স্কোর তৈরি করতে মিউজিক প্রম্পটে অনুবাদ করে। মিউজিক ডিরেক্টর এজেন্ট এই মিউজিকটিকে নির্দিষ্ট প্যানেলে ম্যাপ করে, যখন সাউন্ড ইফেক্টস এজেন্ট প্রাসঙ্গিক সাউন্ড ইফেক্ট ট্যাগে প্যানেল ম্যাপ করে, একটি ডাটাবেস থেকে উদ্ধার করা হয়।
এই কর্মপ্রবাহের সমাপ্তি ঘটে একটি JSON ফাইলে বিস্তারিত প্যানেল স্থানাঙ্ক, ভয়েস-ওভার, সাউন্ড ইফেক্ট এবং সিঙ্ক্রোনাইজ করা মিউজিক, যা Toonsutra-এর ফ্রন্ট-এন্ডে দেওয়া হয়।
একটি মূল সাফল্য হল জেমিনির এই সিনেম্যাটিক অডিওটি হিন্দি থেকে শুরু করে, টুনসুত্রার অ্যাক্সেসিবিলিটি মিশনকে এগিয়ে নিয়ে ভারতীয় ভাষায় স্থানীয়ভাবে তৈরি করার ক্ষমতা।
"জেমিনির বহুমুখী এবং বহুভাষিক ক্ষমতার সুবিধার জন্য এটি এমন একটি মজাদার, উত্তেজনাপূর্ণ ব্যবহারের ক্ষেত্রে হয়েছে৷ চিত্র, অক্ষর, স্কেচ এবং থিমগুলিকে অর্থগতভাবে বোঝার জন্য Google-এর শক্তিশালী বৃহৎ ভাষার মডেলগুলি ব্যবহার করে একটি ইনপুট মিডিয়াকে এর মৌলিক বিষয়গুলিতে সংক্ষিপ্ত করার একটি দুর্দান্ত প্রক্রিয়া হয়েছে৷ লিরিয়ার শক্তিশালী সঙ্গীত প্রজন্ম এবং মিথুনের ভাষা বিশেষ করে আমাদের স্থানীয় ভাষাগুলির চূড়ান্ত দক্ষতা, বিশেষ করে মেথুনের ক্ষমতার অভিজ্ঞতা ছিল৷ টুনসুত্রার সাথে অংশীদারিত্বে সরবরাহ করতে"
Google I/O থেকে সাধারণ উপলব্ধতা পর্যন্ত
Google I/O শোকেস একটি অবিশ্বাস্য মাইলফলক ছিল, যা প্রদর্শন করে যে কীভাবে AI মৌলিকভাবে ডিজিটাল সামগ্রীকে উন্নত করতে পারে। Toonsutra জন্য, এটি শুধুমাত্র প্রথম অধ্যায়.
যেমন আমাদের দল প্রায়শই বলে: "Toonsutra-এ আমাদের দৃষ্টিভঙ্গি সর্বদা কমিক্সকে আরও আকর্ষক এবং সকলের কাছে, সর্বত্র অ্যাক্সেসযোগ্য করে তোলা। Google-এর সাথে এই সহযোগিতা সেই দৃষ্টিভঙ্গির দিকে একটি বিশাল লাফ। এই গভীরভাবে নিমজ্জিত, এআই-চালিত পড়ার অভিজ্ঞতা তৈরি করার ক্ষমতা সরাসরি আমাদের সম্প্রদায়ের প্রতিক্রিয়াকে সম্বোধন করে এবং আমাদের উদ্ভাবন/উদ্ভাবনের মাধ্যমে আমাদের প্রতিক্রিয়া ত্বরান্বিত করে। Toonsutra অ্যাপে এটিকে একীভূত করতে আগ্রহী, অবশেষে এমনকি অন্যান্য নির্মাতাদের ক্ষমতায়নের জন্য একটি সম্ভাব্য API অন্বেষণ করে।"
Toonsutra এখন তাদের প্রধান অ্যাপ্লিকেশনে এই বৈশিষ্ট্যগুলির পর্যায়ক্রমে একীকরণের উপর দৃষ্টি নিবদ্ধ করে, সম্প্রদায়ের প্রতিক্রিয়াগুলি ঘনিষ্ঠভাবে শুনছে। তারা বিশ্বাস করে যে তারা কেবল তাদের প্ল্যাটফর্মকে সমৃদ্ধ করছে না বরং AI-বর্ধিত সামগ্রীর জন্য একটি নতুন ব্লুপ্রিন্ট তৈরি করতে সহায়তা করছে।
নির্মাণের জন্য প্রস্তুত? Gemini API ডকুমেন্টেশন এক্সপ্লোর করুন এবং আজই Google AI স্টুডিও দিয়ে শুরু করুন।
Toonsutra হল Google-এর AI ফিউচার ফান্ডের একজন অংশগ্রহণকারী যেটি AI-তে পরবর্তী কী হবে তা তৈরি করার জন্য উচ্চাভিলাষী স্টার্টআপগুলির সাথে বিনিয়োগ করে এবং সহযোগিতা করে৷
হার্ভে
হার্ভে তার BigLaw বেঞ্চ ব্যবহার করে Gemini 2.5 Pro-এর ব্যতিক্রমী ক্ষমতা প্রদর্শনের জন্য জটিল আইনি যুক্তির কাজ যেমন যথাযথ পরিশ্রম এবং মামলার খসড়া পরিচালনা করার জন্য।