Interactions API hiện đã được phát hành rộng rãi. Bạn nên sử dụng API này để truy cập vào tất cả các tính năng và mô hình mới nhất.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tạo video trong Gemini API

Gemini API cung cấp 2 mô hình để tạo video, đó là Gemini Omni Flash và Veo. Mỗi loại được thiết kế cho một quy trình làm việc riêng.

Sử dụng Gemini Omni Flash làm mô hình mặc định để tạo video. Mô hình này mang đến độ nhất quán vượt trội cho video, khả năng suy luận đa đầu vào (hỗ trợ đồng thời văn bản, hình ảnh, âm thanh và video), tính nhất quán của nhân vật, độ chính xác về thông tin thực tế và khả năng chỉnh sửa bằng ngôn ngữ tự nhiên nhiều lượt (ví dụ: thay thế phần tử hoặc thay đổi góc nhìn). Bạn cần sử dụng Veo 3.1 cho các chức năng cụ thể như mở rộng cảnh, kiểm soát khung hình cuối cùng hoặc tích hợp với các quy trình cũ.

Gemini Omni Flash

Gemini Omni Flash là một mô hình đa phương thức, có tốc độ cao để tạo video và chỉnh sửa video theo cách đàm thoại. Mô hình này có khả năng chuyển đổi nhanh chóng các câu lệnh dạng văn bản và hình ảnh thành video ngắn, đồng thời cho phép bạn tinh chỉnh kết quả qua nhiều lượt bằng cách sử dụng Interactions API.

Làm quen với Gemini Omni Flash →

Veo 3.1

Veo 3.1 là một mô hình tạo video có âm thanh gốc. Công cụ này hỗ trợ các tính năng như tiện ích video, tạo nội dung theo khung hình cụ thể và chỉ dẫn dựa trên hình ảnh thông qua API generateContent.

Bắt đầu dùng Veo 3.1 →

Hiểu video

Nếu bạn cần nhập và phân tích nội dung video hiện có thay vì tạo video mới, hãy xem Hướng dẫn về tính năng hiểu video.