Chia sẻ

Ngày 3 tháng 11 năm 2025

Không chỉ có câu lệnh dạng văn bản: Cách Cartwheel tạo ra hình ảnh 3D có tư thế chân thực bằng Gemini Flash 2.5

Vishal Dharmadhikari

Kỹ sư giải pháp sản phẩm

Jonathan Jarvis

Nhà đồng sáng lập kiêm Giám đốc công nghệ

Andrew Carr

Nhà đồng sáng lập kiêm Nhà khoa học trưởng

Hình ảnh chính của phần giới thiệu Cartwheel

Các mô hình tạo sinh đã mang đến những khả năng mới cho nghệ sĩ và nhà thiết kế. Tuy nhiên, đối với nhà sáng tạo chuyên nghiệp, việc chuyển một ý tưởng sáng tạo cụ thể thành hình ảnh được tạo vẫn là một thách thức lớn. Việc chỉ dùng câu lệnh dạng văn bản thường giống như "máy đánh bạc", khiến bạn khó kiểm soát chính xác tư thế của nhân vật, góc camera và bố cục.

Cartwheel, một nền tảng tạo nội dung nghe nhìn và trò chơi 3D dựa trên AI, đang giải quyết vấn đề này bằng cách xây dựng một giải pháp mới dựa trên các mô hình tiên tiến của Google, trong trường hợp này là Gemini 2.5 Flash Image Nano Banana. Tính năng "Chế độ tư thế" trong Cartwheel Studio không chỉ đơn thuần là tạo hình ảnh từ văn bản mà còn kết hợp các chế độ kiểm soát gốc 3D, giúp nhà sáng tạo kiểm soát trực tiếp và lặp lại đối với sản phẩm của họ.

Tư thế bánh xe

Thách thức: thu hẹp khoảng cách giữa ý định và kết quả

Trong quy trình sáng tạo chuyên nghiệp, độ chính xác là yếu tố thiết yếu. Nghệ sĩ, nhà quảng cáo hoặc nhà thiết kế trò chơi thường cần tạo một nhân vật ở tư thế hoặc góc độ cụ thể để phù hợp với bảng phân cảnh hoặc bản tóm tắt chiến dịch.

"Nhìn chung, các công cụ tạo hình ảnh rất khó kiểm soát", Jonathan Jarvis, đồng sáng lập Cartwheel cho biết. "Thật khó để đạt được một tầm nhìn mà bạn thực sự có. Chúng tôi luôn muốn bạn có thể trực tiếp điều khiển nhân vật."

Yêu cầu này về thao tác trực tiếp đã khiến Cartwheel phát triển một quy trình đa phương thức, tích hợp tính năng tạo dáng 3D, lời nhắc bằng văn bản và nhiều mô hình AI để phối hợp hoạt động.

Giải pháp: quy trình nhiều mô hình để tạo tư thế chính xác Thay vì chỉ dựa vào văn bản, Chế độ tư thế của Cartwheel sẽ cung cấp cho người dùng một ma-nơ-canh 3D. Người dùng có thể nhấp và kéo trực tiếp các chi của ma-nơ-canh để tạo một tư thế cụ thể và điều chỉnh camera ảo theo mọi góc độ. Sau đó, cảnh 3D này sẽ trở thành dữ liệu đầu vào chính cho quy trình tạo sinh.

Quy trình kỹ thuật như sau:

  1. Gắn nhãn tư thế bằng Gemini 2.5 Flash. Trước tiên, ảnh chụp màn hình của ma-nơ-canh 3D được tạo dáng sẽ được gửi đến Gemini 2.5 Flash. Cartwheel sử dụng Flash 2.5 cho bước này vì tốc độ của Flash 2.5 phù hợp với yêu cầu về độ trễ thấp của một công cụ sáng tạo theo thời gian thực. Nhiệm vụ của mô hình là trả về một nhãn văn bản đơn giản mô tả tư thế, chẳng hạn như "một nhân vật đang nhảy" hoặc "một nhân vật đang chào".
  2. Tập hợp câu lệnh đa phương thức. Sau đó, nhãn tư thế 2.5 do Flash tạo này sẽ tự động kết hợp với câu lệnh văn bản mô tả của riêng người dùng (ví dụ: "một robot trong một cánh đồng hoa").
  3. Tạo hình ảnh có điều kiện. Cuối cùng, câu lệnh kết hợp này sẽ được gửi đến một mô hình hình ảnh có độ trung thực cao và giữ nguyên tư thế, đó là Gemini 2.5 Flash Image, cùng với ảnh chụp màn hình ban đầu về tư thế 3D. Câu lệnh đa phương thức này (bao gồm cả hình ảnh về tư thế và nội dung mô tả chi tiết bằng văn bản) sẽ điều kiện hoá Gemini 2.5 Flash Image để tạo ra một hình ảnh tuân thủ nghiêm ngặt tư thế và góc máy, đồng thời áp dụng phong cách nghệ thuật, nhân vật và chi tiết cảnh trong văn bản.


Việc kết hợp các mô hình này (sử dụng 2.5 Flash để phân tích và gắn nhãn hình ảnh, cũng như 2.5 Flash Image để kết xuất có điều kiện cuối cùng) cho phép Cartwheel cung cấp một quy trình làm việc độc đáo, kết hợp khả năng kiểm soát trực quan của phần mềm 3D với sức mạnh sáng tạo của AI tạo sinh. Kết quả: tạo ra nhân vật nhất quán ở mọi góc độ Phương pháp này đã chứng minh được hiệu quả trong việc tạo ra những hình ảnh mà trước đây rất khó tạo. Andrew Carr, đồng sáng lập của Cartwheel, cho biết: "Việc kết xuất nhân vật từ mọi góc độ, trừ góc chính diện, không hoạt động trong bất kỳ mô hình nào khác". "Ngay khi bạn xoay camera, camera đã bị rơi."

Vì hầu hết các mô hình hình ảnh đều được huấn luyện dựa trên dữ liệu có các nhân vật xuất hiện chủ yếu từ phía trước, nên chúng gặp khó khăn trong việc tạo ra những bố cục ít phổ biến hơn, chẳng hạn như ảnh chụp từ góc cao hoặc ảnh chụp từ phía sau. Bằng cách cung cấp tư thế dưới dạng dữ liệu đầu vào trực quan, công cụ của Cartwheel bỏ qua điểm thiên vị này trong dữ liệu huấn luyện, cho phép nghệ sĩ tạo ra các nhân vật nhất quán ở mọi góc độ mà họ chọn.

Quy trình này giúp tăng tốc đáng kể quá trình sáng tạo. Một tác vụ mà trước đây có thể đòi hỏi hàng giờ lặp lại lời nhắc hoặc kết hợp thủ công của một nghệ sĩ 3D, giờ đây có thể hoàn thành trong vài giây.

Bước tiếp theo: từ hình ảnh tĩnh đến video tạo sinh

Cartwheel đã lên kế hoạch cho các bước tiếp theo đối với công nghệ này. Nhóm đang thử nghiệm việc tích hợp một thư viện gồm 150.000 tư thế được phân loại trước mà người dùng có thể tìm kiếm và tinh chỉnh, giúp quy trình làm việc diễn ra nhanh hơn nữa.

Mục tiêu dài hạn là mở rộng quy trình từ tư thế đến pixel này thành chuyển động. Cùng một tư thế 3D và hình ảnh được kết xuất có thể đóng vai trò là khung hình bắt đầu cho một mô hình video-to-video, chẳng hạn như Veo. Điều này sẽ cho phép nhà sáng tạo tạo dáng cho nhân vật, kết xuất nhân vật đó theo bất kỳ phong cách nào, rồi tạo ảnh động cho nhân vật bằng một câu lệnh dạng văn bản, tạo ra một quy trình liền mạch từ việc tạo dáng 3D đến ảnh động cuối cùng theo phong cách riêng.

Bằng cách xây dựng dựa trên các mô hình đa phương thức như các mô hình trong nhóm mô hình của Gemini, Cartwheel đang minh hoạ cách nhà phát triển có thể tạo ra các công cụ tinh vi, mang đến cho nghệ sĩ quyền kiểm soát và tính nhất quán mà họ cần, chuyển AI tạo sinh từ một công cụ ngẫu nhiên thành một công cụ có ý định sáng tạo chính xác.