Ngày 7 tháng 11 năm 2025
HubX tích hợp Gemini 2.5 Flash Image để chỉnh sửa ảnh theo ngữ cảnh với độ trễ thấp trong ứng dụng ReShoot
HubX là một trung tâm công nghệ toàn cầu, phục vụ hơn 300 triệu người dùng thông qua danh mục ứng dụng di động của mình. Khi phát triển ứng dụng mới nhất của mình là ReShoot, họ hướng đến việc giúp mọi người có thể chỉnh sửa ảnh ở cấp độ chuyên nghiệp bằng AI tạo sinh. Bằng cách tận dụng Gemini API, nhóm đã đạt được tốc độ phát triển đáng chú ý, đưa dự án từ khi bắt đầu phát triển MVP đến khi ra mắt trên iOS chỉ trong 2 tuần. Không lâu sau đó, ReShoot đã giành vị trí số 1 trong danh mục Đồ hoạ và thiết kế tại Hoa Kỳ trên App Store.
Mục tiêu của ứng dụng là cho phép người dùng thay đổi cảnh hoặc phong cách của ảnh mà không làm mất vẻ tự nhiên và danh tính của đối tượng ban đầu. Đối với các nhà phát triển, việc cung cấp mức độ suy luận phức tạp, đa phương thức này trong các yêu cầu nghiêm ngặt về độ trễ thấp của trải nghiệm trên thiết bị di động là một thách thức đáng kể về kiến trúc. Để giải quyết vấn đề này, HubX đã sử dụng Gemini API để xây dựng một quy trình chỉnh sửa ảnh tinh vi, cân bằng giữa khả năng hiểu ngữ cảnh có độ trung thực cao với tốc độ suy luận vượt trội.
Chỉnh sửa với độ trung thực cao bằng Nano Banana
Để xây dựng công cụ suy luận đằng sau ReShoot, HubX đã hợp tác với nhóm Google để tích hợp Hình ảnh Gemini 2.5 Flash (còn gọi là Nano Banana).
Thách thức kỹ thuật chính trong việc tạo hình ảnh từ hình ảnh là duy trì danh tính của đối tượng trong khi diễn giải các yêu cầu phức tạp về cảnh. Không giống như các quy trình truyền thống thường yêu cầu liên kết các mô hình riêng biệt để suy luận văn bản và tổng hợp hình ảnh, Gemini 2.5 Flash Image có bản chất là đa phương thức. Công cụ này xử lý câu lệnh dạng văn bản và dữ liệu đầu vào là hình ảnh trong một bước duy nhất.
Cấu trúc này cho phép ReShoot thực hiện chỉnh sửa đàm thoại (hình ảnh + chuyển văn bản thành hình ảnh) với độ tuân thủ cao đối với câu lệnh của người dùng trong khi vẫn giữ được danh tính và bối cảnh cốt lõi của ảnh đã tải lên. So với các lựa chọn thay thế đã được thử nghiệm, HubX nhận thấy mô hình Gemini có khả năng hiểu biết về hình ảnh và tính nhất quán đa phương thức vượt trội.
Giảm độ trễ của ứng dụng xuống 40%
Mặc dù việc tạo hình ảnh có độ trung thực cao là điều bắt buộc, nhưng người dùng thiết bị di động mong đợi kết quả gần như tức thì. Bất kỳ trở ngại nào trong quá trình sáng tạo đều có thể dẫn đến việc mất tương tác.
Bằng cách chuẩn hoá trên Gemini 2.5 Flash Image, HubX đã giảm thời gian phản hồi trung bình để cập nhật và thao tác với hình ảnh xuống gần 40%. Việc giảm đáng kể độ trễ này giúp trải nghiệm người dùng chuyển từ trạng thái chờ thụ động sang một quy trình sáng tạo linh hoạt, điều này rất cần thiết để giữ chân người dùng trong các ứng dụng di động dành cho người tiêu dùng.
Đơn giản hoá quy trình phát triển
Ngoài việc cải thiện hiệu suất ngay lập tức, việc tích hợp Gemini API còn giúp đơn giản hoá đáng kể cấu trúc phát triển của HubX. Nhóm này sử dụng Google AI Studio để tạo nguyên mẫu và kiểm thử chuỗi câu lệnh trước khi triển khai các chuỗi đó vào quy trình sản xuất thông qua các gói Node.js tuỳ chỉnh được kết nối với phần phụ trợ di động của họ.
Trước khi sử dụng các mô hình Gemini, những tác vụ liên quan đến việc diễn giải dữ liệu đa phương thức thường đòi hỏi logic tuỳ chỉnh phức tạp hoặc việc kết hợp các mô hình riêng biệt. Bằng cách áp dụng Gemini 2.5 Flash Image, HubX đã hợp nhất các nhiệm vụ này thành một khung mô hình hoá duy nhất, nhất quán, giúp giảm độ phức tạp về cấu trúc đồng thời cải thiện tốc độ suy luận.
Bước tiếp theo
Sau khi tích hợp thành công Gemini API, HubX nhận thấy mức độ tương tác của người dùng tăng lên, thể hiện qua tỷ lệ lưu và thích cao hơn đối với nội dung được tạo. Trong tương lai, họ dự định phát triển ReShoot từ một công cụ đơn chức năng thành một nền tảng toàn diện để chỉnh sửa ảnh gốc một cách liền mạch.
Việc triển khai của HubX minh hoạ cách nhà phát triển có thể tận dụng tốc độ và các tính năng đa phương thức gốc của Gemini API để xây dựng các ứng dụng trực quan, hiệu suất cao đáp ứng nhu cầu của người dùng thiết bị di động.
Để bắt đầu xây dựng bằng các mô hình Gemini, hãy đọc tài liệu về tính năng tạo hình ảnh của chúng tôi.