۷ نوامبر ۲۰۲۵
HubX برای ویرایش عکس با تأخیر کم و مبتنی بر متن در برنامه ReShoot، از Gemini 2.5 Flash Image استفاده میکند.

HubX یک مرکز فناوری جهانی است که به بیش از ۳۰۰ میلیون کاربر در سراسر مجموعه برنامههای تلفن همراه خود خدمات ارائه میدهد. آنها هنگام توسعه آخرین برنامه خود، ReShoot، هدفشان دموکراتیزه کردن ویرایش عکس در سطح حرفهای با استفاده از هوش مصنوعی مولد بود. با بهرهگیری از Gemini API، این تیم به سرعت توسعه قابل توجهی دست یافت و پروژه را از ابتدای توسعه MVP تا راهاندازی زنده iOS تنها در دو هفته پیش برد. اندکی پس از آن، ReShoot رتبه اول را در دسته گرافیک و طراحی ایالات متحده در فروشگاه App کسب کرد.
هدف این برنامه این است که به کاربران اجازه دهد صحنه یا سبک یک عکس را بدون از دست دادن ظاهر طبیعی و هویت سوژه اصلی تغییر دهند. برای توسعهدهندگان، ارائه این سطح از استدلال پیچیده و چندوجهی در چارچوب الزامات سختگیرانه و کمتأخیر یک تجربه موبایل، یک چالش معماری قابل توجه است. برای پرداختن به این موضوع، HubX از رابط برنامهنویسی Gemini برای ساخت یک خط لوله ویرایش عکس پیشرفته استفاده کرد که درک متنی با دقت بالا را با سرعت استنتاج استثنایی متعادل میکند.

ویرایش با کیفیت بالا با Nano Banana
برای ساخت موتور استدلال پشت ReShoot، HubX با تیم گوگل همکاری کرد تا Gemini 2.5 Flash Image - که با نام Nano Banana نیز شناخته میشود - را ادغام کند.
یک چالش فنی اصلی در تولید تصویر به تصویر، حفظ هویت سوژه در حین تفسیر درخواستهای پیچیده صحنه است. برخلاف خطوط لوله سنتی که اغلب نیاز به زنجیرهسازی مدلهای جداگانه برای استدلال متنی و ترکیب تصویر دارند، Gemini 2.5 Flash Image به صورت بومی چندوجهی است. این نرمافزار، پیامهای متنی و ورودیهای تصویر را در یک مرحله واحد و یکپارچه پردازش میکند.
این معماری به ReShoot اجازه میدهد تا ویرایش محاورهای (تصویر + تبدیل متن به تصویر) را با پایبندی بالا به درخواستهای کاربر انجام دهد و در عین حال هویت و زمینه اصلی عکسهای آپلود شده را حفظ کند. HubX در مقایسه با گزینههای آزمایش شده، دریافت که مدل Gemini درک بصری برتر و سازگاری چندوجهی را ارائه میدهد.
کاهش ۴۰ درصدی تأخیر برنامه
اگرچه تولید با کیفیت بالا ضروری است، کاربران موبایل انتظار نتایج تقریباً فوری را دارند. هرگونه اصطکاک در فرآیند خلاقانه میتواند منجر به از دست دادن تعامل شود.
با استانداردسازی Gemini 2.5 Flash Image، HubX میانگین زمان پاسخگویی برای بهروزرسانی و دستکاری تصاویر را تقریباً 40٪ کاهش داد. این کاهش چشمگیر در تأخیر، تجربه کاربر را از حالت انتظار منفعل به یک فرآیند خلاقانه روان تبدیل میکند که برای ماندگاری در برنامههای تلفن همراه مصرفکننده ضروری است.
سادهسازی گردشهای کاری توسعه
فراتر از افزایش فوری عملکرد، ادغام رابط برنامهنویسی نرمافزار Gemini به طور قابل توجهی معماری توسعه HubX را ساده کرد. این تیم از Google AI Studio برای نمونهسازی اولیه و آزمایش زنجیرههای اعلان قبل از استقرار آنها در مرحله تولید از طریق بستههای سفارشی Node.js متصل به بکاند موبایل خود استفاده میکند.
پیش از استفاده از مدلهای Gemini، وظایف مربوط به تفسیر دادههای چندوجهی اغلب به منطق سفارشی پیچیده یا زنجیرهسازی مدلهای متفاوت نیاز داشتند. HubX با اتخاذ Gemini 2.5 Flash Image ، این وظایف را در یک چارچوب مدلسازی واحد و منسجم ادغام کرد و پیچیدگی معماری را کاهش داد و در عین حال سرعت استنتاج را بهبود بخشید.
قدم بعدی چیست؟
پس از ادغام موفقیتآمیز رابط برنامهنویسی نرمافزار Gemini، HubX افزایش تعامل کاربران را مشاهده کرد، که این افزایش با نرخ ذخیره و لایک بالاتر در محتوای تولید شده مشخص میشود. آنها در آینده قصد دارند ReShoot را از یک ابزار تکمنظوره به یک پلتفرم جامع برای ویرایش عکس بومی و یکپارچه تبدیل کنند.
پیادهسازی HubX نشان میدهد که چگونه توسعهدهندگان میتوانند از سرعت و قابلیتهای چندوجهی بومی Gemini API برای ساخت برنامههای کاربردی بصری و با کارایی بالا که نیازهای کاربران تلفن همراه را برآورده میکنند، بهره ببرند.
برای شروع ساخت با مدلهای Gemini، مستندات تولید تصویر ما را مطالعه کنید.
والی
والی از Gemini 2.5 Pro برای سرعت بخشیدن به فرآیند توسعه بازی خود استفاده میکند و ماجراجوییهای سیاهچاله فراگیر با هوش مصنوعی و صدا را با جلوههای بصری Gemini 2.0 Flash و Veo 2 میسازد.