শেয়ার করুন

৭ নভেম্বর, ২০২৫

রিশুট অ্যাপে কম-বিলম্বিত, প্রাসঙ্গিক ছবি সম্পাদনার জন্য হাবএক্স জেমিনি ২.৫ ফ্ল্যাশ ইমেজ সংহত করে

সার্টাক চিনার

সিনিয়র প্রোডাক্ট ম্যানেজার হাবএক্স

বিশাল ধর্মাধিকারী

পণ্য সমাধান প্রকৌশলী

প্যাসকেল এআই শোকেস হিরো

HubX হল একটি বিশ্বব্যাপী প্রযুক্তি কেন্দ্র যা তার মোবাইল অ্যাপ্লিকেশনের পোর্টফোলিও জুড়ে 300 মিলিয়নেরও বেশি ব্যবহারকারীকে পরিষেবা প্রদান করে। তাদের সর্বশেষ অ্যাপ, ReShoot তৈরি করার সময়, তারা জেনারেটিভ AI ব্যবহার করে পেশাদার-স্তরের ফটো এডিটিংকে গণতান্ত্রিক করার লক্ষ্যে কাজ করেছিল। Gemini API ব্যবহার করে, দলটি একটি অসাধারণ উন্নয়ন গতি অর্জন করেছে, মাত্র দুই সপ্তাহের মধ্যে MVP ডেভেলপমেন্টের শুরু থেকে লাইভ iOS লঞ্চ পর্যন্ত প্রকল্পটি নিয়ে গেছে। এর কিছুক্ষণ পরেই, ReShoot অ্যাপ স্টোরে মার্কিন গ্রাফিক্স এবং ডিজাইন বিভাগে #1 স্থান অর্জন করেছে।

এই অ্যাপটির লক্ষ্য হল ব্যবহারকারীদের ছবির দৃশ্য বা স্টাইল পরিবর্তন করার সুযোগ করে দেওয়া, যাতে তারা মূল বিষয়ের স্বাভাবিক চেহারা এবং পরিচয় না হারিয়ে ছবির দৃশ্য বা স্টাইল পরিবর্তন করতে পারে। ডেভেলপারদের জন্য, মোবাইল অভিজ্ঞতার কঠোর নিম্ন-বিলম্বিততার প্রয়োজনীয়তার মধ্যে এই স্তরের জটিল, বহুমুখী যুক্তি প্রদান একটি গুরুত্বপূর্ণ স্থাপত্য চ্যালেঞ্জ উপস্থাপন করে। এটি মোকাবেলা করার জন্য, HubX একটি অত্যাধুনিক ফটো এডিটিং পাইপলাইন তৈরি করতে Gemini API ব্যবহার করেছে যা ব্যতিক্রমী অনুমান গতির সাথে উচ্চ-বিশ্বস্ততার প্রাসঙ্গিক বোঝাপড়ার ভারসাম্য বজায় রাখে।

হাবএক্স

ন্যানো ব্যানানা দিয়ে উচ্চ-বিশ্বস্ততা সম্পাদনা

ReShoot-এর পিছনে যুক্তি ইঞ্জিন তৈরি করতে, HubX Google টিমের সাথে কাজ করে Gemini 2.5 Flash Image - যা Nano Banana নামেও পরিচিত - সংহত করে।

ইমেজ-টু-ইমেজ জেনারেশনের একটি প্রধান প্রযুক্তিগত চ্যালেঞ্জ হল জটিল দৃশ্যের অনুরোধগুলি ব্যাখ্যা করার সময় বিষয় পরিচয় বজায় রাখা। ঐতিহ্যবাহী পাইপলাইনগুলির বিপরীতে যেখানে প্রায়শই টেক্সট যুক্তি এবং ইমেজ সংশ্লেষণের জন্য পৃথক মডেলগুলিকে শৃঙ্খলিত করার প্রয়োজন হয়, জেমিনি 2.5 ফ্ল্যাশ ইমেজটি স্থানীয়ভাবে মাল্টিমোডাল। এটি একক, একীভূত ধাপে টেক্সট প্রম্পট এবং ইমেজ ইনপুট প্রক্রিয়া করে।

এই আর্কিটেকচারটি ReShoot-কে কথোপকথন সম্পাদনা (ছবি + টেক্সট-টু-ইমেজ) করতে সাহায্য করে, ব্যবহারকারীর প্রম্পটগুলির উচ্চ আনুগত্যের সাথে, আপলোড করা ফটোগুলির মূল পরিচয় এবং প্রেক্ষাপট সংরক্ষণ করে। পরীক্ষিত বিকল্পগুলির তুলনায়, HubX আবিষ্কার করেছে যে জেমিনি মডেলটি উচ্চতর ভিজ্যুয়াল বোধগম্যতা এবং মাল্টিমোডাল ধারাবাহিকতা প্রদান করে।

অ্যাপ ল্যাটেন্সি ৪০% কমানো হচ্ছে

যদিও উচ্চ-বিশ্বস্ততা প্রজন্ম অপরিহার্য, মোবাইল ব্যবহারকারীরা প্রায় তাৎক্ষণিক ফলাফল আশা করেন। সৃজনশীল প্রক্রিয়ায় যেকোনো ঘর্ষণ ব্যস্ততা হ্রাসের কারণ হতে পারে।

জেমিনি ২.৫ ফ্ল্যাশ ইমেজকে স্ট্যান্ডার্ডাইজ করে, হাবএক্স ছবি আপডেট এবং ম্যানিপুলেট করার জন্য গড় প্রতিক্রিয়া সময় প্রায় ৪০% কমিয়েছে। ল্যাটেন্সির এই গুরুত্বপূর্ণ হ্রাস ব্যবহারকারীর অভিজ্ঞতাকে একটি নিষ্ক্রিয় অপেক্ষার অবস্থা থেকে একটি তরল সৃজনশীল প্রক্রিয়ায় রূপান্তরিত করে, যা গ্রাহক মোবাইল অ্যাপগুলিতে ধরে রাখার জন্য অপরিহার্য।

উন্নয়ন কর্মপ্রবাহকে সুবিন্যস্ত করা

তাৎক্ষণিক কর্মক্ষমতা বৃদ্ধির পাশাপাশি, জেমিনি এপিআই সংহত করার ফলে হাবএক্স ডেভেলপমেন্ট আর্কিটেকচার উল্লেখযোগ্যভাবে সরলীকৃত হয়েছে। দলটি তাদের মোবাইল ব্যাকএন্ডের সাথে সংযুক্ত কাস্টম Node.js প্যাকেজের মাধ্যমে উৎপাদনে স্থাপন করার আগে প্রম্পট চেইনগুলিকে প্রোটোটাইপ এবং পরীক্ষা করার জন্য গুগল এআই স্টুডিও ব্যবহার করে।

জেমিনি মডেল ব্যবহার করার আগে, মাল্টিমোডাল ডেটা ব্যাখ্যার সাথে জড়িত কাজগুলির জন্য প্রায়শই জটিল কাস্টম লজিক বা ভিন্ন মডেলের শৃঙ্খল প্রয়োজন হত। জেমিনি 2.5 ফ্ল্যাশ ইমেজ গ্রহণ করে, হাবএক্স এই কাজগুলিকে একটি একক, সুসংগত মডেলিং কাঠামোতে একত্রিত করেছে, যা স্থাপত্য জটিলতা হ্রাস করে এবং অনুমানের গতি উন্নত করে।

এরপর কি?

জেমিনি এপিআই-এর সফল ইন্টিগ্রেশনের পর, হাবএক্স ব্যবহারকারীদের ব্যস্ততা বৃদ্ধি লক্ষ্য করেছে, যা জেনারেট করা কন্টেন্টে উচ্চতর সেভ এবং লাইক হার দ্বারা নির্দেশিত। ভবিষ্যতের দিকে তাকিয়ে, তারা রিশুটকে একটি একক-উদ্দেশ্য সরঞ্জাম থেকে নেটিভ, নিরবচ্ছিন্ন ফটো এডিটিং-এর জন্য একটি বিস্তৃত প্ল্যাটফর্মে রূপান্তর করার পরিকল্পনা করছে।

হাবএক্সের বাস্তবায়ন দেখায় যে কীভাবে ডেভেলপাররা জেমিনি এপিআই-এর গতি এবং নেটিভ মাল্টিমোডাল ক্ষমতা ব্যবহার করে স্বজ্ঞাত, উচ্চ-কার্যক্ষমতাসম্পন্ন অ্যাপ্লিকেশন তৈরি করতে পারে যা মোবাইল ব্যবহারকারীদের চাহিদা পূরণ করে।

জেমিনি মডেল দিয়ে তৈরি শুরু করতে, আমাদের ইমেজ জেনারেশন ডকুমেন্টেশন পড়ুন।

ভলি

ভলি তার গেম ডেভেলপমেন্ট প্রক্রিয়াকে ত্বরান্বিত করতে জেমিনি ২.৫ প্রো ব্যবহার করে, জেমিনি ২.০ ফ্ল্যাশ এবং ভিও ২ এর ভিজ্যুয়াল ব্যবহার করে নিমজ্জিত ভয়েস-এআই ডাঞ্জন অ্যাডভেঞ্চার তৈরি করে।