اشتراک گذاری

۷ نوامبر ۲۰۲۵

HubX برای ویرایش عکس با تأخیر کم و مبتنی بر متن در برنامه ReShoot، از Gemini 2.5 Flash Image استفاده می‌کند.

سرتاچ چنار

مدیر ارشد محصول HubX

ویشال دارمادیکاری

مهندس راهکارهای محصول

قهرمان نمایش هوش مصنوعی پاسکال

HubX یک مرکز فناوری جهانی است که به بیش از ۳۰۰ میلیون کاربر در سراسر مجموعه برنامه‌های تلفن همراه خود خدمات ارائه می‌دهد. آنها هنگام توسعه آخرین برنامه خود، ReShoot، هدفشان دموکراتیزه کردن ویرایش عکس در سطح حرفه‌ای با استفاده از هوش مصنوعی مولد بود. با بهره‌گیری از Gemini API، این تیم به سرعت توسعه قابل توجهی دست یافت و پروژه را از ابتدای توسعه MVP تا راه‌اندازی زنده iOS تنها در دو هفته پیش برد. اندکی پس از آن، ReShoot رتبه اول را در دسته گرافیک و طراحی ایالات متحده در فروشگاه App کسب کرد.

هدف این برنامه این است که به کاربران اجازه دهد صحنه یا سبک یک عکس را بدون از دست دادن ظاهر طبیعی و هویت سوژه اصلی تغییر دهند. برای توسعه‌دهندگان، ارائه این سطح از استدلال پیچیده و چندوجهی در چارچوب الزامات سختگیرانه و کم‌تأخیر یک تجربه موبایل، یک چالش معماری قابل توجه است. برای پرداختن به این موضوع، HubX از رابط برنامه‌نویسی Gemini برای ساخت یک خط لوله ویرایش عکس پیشرفته استفاده کرد که درک متنی با دقت بالا را با سرعت استنتاج استثنایی متعادل می‌کند.

هاب ایکس

ویرایش با کیفیت بالا با Nano Banana

برای ساخت موتور استدلال پشت ReShoot، HubX با تیم گوگل همکاری کرد تا Gemini 2.5 Flash Image - که با نام Nano Banana نیز شناخته می‌شود - را ادغام کند.

یک چالش فنی اصلی در تولید تصویر به تصویر، حفظ هویت سوژه در حین تفسیر درخواست‌های پیچیده صحنه است. برخلاف خطوط لوله سنتی که اغلب نیاز به زنجیره‌سازی مدل‌های جداگانه برای استدلال متنی و ترکیب تصویر دارند، Gemini 2.5 Flash Image به صورت بومی چندوجهی است. این نرم‌افزار، پیام‌های متنی و ورودی‌های تصویر را در یک مرحله واحد و یکپارچه پردازش می‌کند.

این معماری به ReShoot اجازه می‌دهد تا ویرایش محاوره‌ای (تصویر + تبدیل متن به تصویر) را با پایبندی بالا به درخواست‌های کاربر انجام دهد و در عین حال هویت و زمینه اصلی عکس‌های آپلود شده را حفظ کند. HubX در مقایسه با گزینه‌های آزمایش شده، دریافت که مدل Gemini درک بصری برتر و سازگاری چندوجهی را ارائه می‌دهد.

کاهش ۴۰ درصدی تأخیر برنامه

اگرچه تولید با کیفیت بالا ضروری است، کاربران موبایل انتظار نتایج تقریباً فوری را دارند. هرگونه اصطکاک در فرآیند خلاقانه می‌تواند منجر به از دست دادن تعامل شود.

با استانداردسازی Gemini 2.5 Flash Image، HubX میانگین زمان پاسخگویی برای به‌روزرسانی و دستکاری تصاویر را تقریباً 40٪ کاهش داد. این کاهش چشمگیر در تأخیر، تجربه کاربر را از حالت انتظار منفعل به یک فرآیند خلاقانه روان تبدیل می‌کند که برای ماندگاری در برنامه‌های تلفن همراه مصرف‌کننده ضروری است.

ساده‌سازی گردش‌های کاری توسعه

فراتر از افزایش فوری عملکرد، ادغام رابط برنامه‌نویسی نرم‌افزار Gemini به طور قابل توجهی معماری توسعه HubX را ساده کرد. این تیم از Google AI Studio برای نمونه‌سازی اولیه و آزمایش زنجیره‌های اعلان قبل از استقرار آنها در مرحله تولید از طریق بسته‌های سفارشی Node.js متصل به بک‌اند موبایل خود استفاده می‌کند.

پیش از استفاده از مدل‌های Gemini، وظایف مربوط به تفسیر داده‌های چندوجهی اغلب به منطق سفارشی پیچیده یا زنجیره‌سازی مدل‌های متفاوت نیاز داشتند. HubX با اتخاذ Gemini 2.5 Flash Image ، این وظایف را در یک چارچوب مدل‌سازی واحد و منسجم ادغام کرد و پیچیدگی معماری را کاهش داد و در عین حال سرعت استنتاج را بهبود بخشید.

قدم بعدی چیست؟

پس از ادغام موفقیت‌آمیز رابط برنامه‌نویسی نرم‌افزار Gemini، HubX افزایش تعامل کاربران را مشاهده کرد، که این افزایش با نرخ ذخیره و لایک بالاتر در محتوای تولید شده مشخص می‌شود. آن‌ها در آینده قصد دارند ReShoot را از یک ابزار تک‌منظوره به یک پلتفرم جامع برای ویرایش عکس بومی و یکپارچه تبدیل کنند.

پیاده‌سازی HubX نشان می‌دهد که چگونه توسعه‌دهندگان می‌توانند از سرعت و قابلیت‌های چندوجهی بومی Gemini API برای ساخت برنامه‌های کاربردی بصری و با کارایی بالا که نیازهای کاربران تلفن همراه را برآورده می‌کنند، بهره ببرند.

برای شروع ساخت با مدل‌های Gemini، مستندات تولید تصویر ما را مطالعه کنید.

والی

والی از Gemini 2.5 Pro برای سرعت بخشیدن به فرآیند توسعه بازی خود استفاده می‌کند و ماجراجویی‌های سیاه‌چاله فراگیر با هوش مصنوعی و صدا را با جلوه‌های بصری Gemini 2.0 Flash و Veo 2 می‌سازد.