Pixtale

Từ ảnh chuyến đi đến video có lời tường thuật chỉ trong vài phút nhờ công nghệ AI của Gemini.

Ý nghĩa

Pixtale là một ứng dụng sử dụng công nghệ AI để biến ảnh và video về chuyến đi của bạn thành các câu chuyện dạng video có lời đọc. Cách thức hoạt động như sau:
1. Tải lên: Người dùng tải tệp zip có nội dung đa phương tiện về chuyến đi lên hoặc chọn một album trên Google Photos.
2. Trích xuất siêu dữ liệu: Ứng dụng trích xuất ngày, giờ và dữ liệu GPS từ nội dung nghe nhìn.
3. Tạo nội dung mô tả bằng AI: Đây là điểm mạnh của Gemini API:
- Gemini Flash tạo nội dung mô tả cho từng bức ảnh và video.
- Gemini 1.5 Pro lấy những nội dung mô tả này làm dữ liệu đầu vào và tạo một kịch bản tường thuật gắn kết, theo từng cảnh.
4. Nội dung đọc bằng âm thanh: API Chuyển văn bản sang lời nói của Google sẽ chuyển đổi tập lệnh thành âm thanh.
5. Tạo video: FFmpeg kết hợp bản tường thuật với nội dung nghe nhìn gốc để tạo video hoàn thiện.
6. Nội dung trên mạng xã hội: Pixtale còn tạo ra:
- Chú thích và hashtag để chia sẻ
- Một bài đăng nhỏ trên blog tóm tắt chuyến đi (cũng sử dụng Gemini 1.5 Pro)
7. Tuỳ chỉnh của người dùng: Người dùng có thể chỉnh sửa thông tin chi tiết về vị trí cho từng cảnh bằng API Google Maps.
Pixtale tận dụng khả năng của Gemini để diễn giải dữ liệu hình ảnh, hiểu ngữ cảnh, tạo nội dung nhất quán và hấp dẫn, đồng thời tạo nên những câu chuyện mang tính cá nhân và chân thực. Phương pháp dựa trên AI này giúp tạo nhanh các câu chuyện du lịch đa phương tiện phong phú mà nếu làm theo cách thủ công thì sẽ mất nhiều thời gian.

Được tạo bằng

  • Google Photos Library API
  • API Google Maps

Nhóm

Người cập nhật

Pixtale

Từ

Hoa Kỳ