Pomo

Nhân hoá mọi thứ – trò chuyện với thú cưng, bức tranh và nhiều đối tượng khác

Ý nghĩa

Chúng tôi lấy cảm hứng từ bản minh hoạ sản phẩm Project Astra của Google nhưng muốn thay đổi lời nhắc của hệ thống để thử các trường hợp sử dụng mới và thú vị. Rất tiếc, Astra chưa được phát hành và cũng không có API có chức năng thao tác với lời nhắc hệ thống. Vì vậy, chúng tôi đã quyết định tạo phiên bản nguồn mở của riêng mình.

Để bắt đầu một trường hợp sử dụng, chúng tôi sử dụng một loạt mô hình AI để cho phép người dùng tương tác với môi trường xung quanh theo những cách mới mẻ và thú vị! Cụ thể, họ có thể nhân hoá bất cứ thứ gì, từ chó/mèo cưng, đến bức tranh treo trên tường, cho đến tách cà phê họ đang uống. Người dùng nhấp vào một đối tượng mà chúng ta tạo mặt nạ bằng cách sử dụng các mô hình TensorFlow và gửi phần cắt của đối tượng cùng với nền dưới dạng hai hình ảnh đến Gemini Flash (xem https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini xác định đối tượng và chúng ta bắt đầu một cuộc trò chuyện mới qua luồng Gemini, trong đó lời nhắc của hệ thống sẽ thông báo cho Gemini về vai trò mới của đối tượng (ví dụ: bức tranh trên tường). Sau đó, người dùng có thể trò chuyện với đối tượng / động vật nhân hoá mới này.

Chúng tôi sử dụng tính năng phát hiện hoạt động bằng giọng nói (VAD) để xác định thời điểm người dùng đang nói và sau 1, 3 giây im lặng, chúng tôi sẽ gửi ảnh chụp màn hình mới nhất của máy ảnh cùng với âm thanh đến Gemini để tiếp tục cuộc trò chuyện. Khi Gemini trả lời, văn bản sẽ được chuyển đổi thành lời nói bằng API truyền trực tuyến văn bản sang lời nói của ElevenLabs. Trong quy trình của mình, chúng tôi sử dụng 6 mô hình AI, bao gồm trình phân đoạn hình ảnh của Google, luồng quang học, Gemini Flash (2 lần), VAD và chuyển văn bản sang lời nói.

– Sam và Tim

Được tạo bằng

Web/Chrome
trình phân đoạn tương tác của Google

Nhóm

Người cập nhật

Pomo

Từ

Hoa Kỳ