Robot hình người Gemini
Robot sử dụng Gemini mang đến trải nghiệm tự nhiên và hấp dẫn hơn.
Ý nghĩa
Quá trình tích hợp này liên quan đến một số thành phần chính: Dịch vụ chatbot, Cầu chatbot, Mô-đun nhận dạng lời nói và Mô-đun đối thoại. Dịch vụ chatbot đóng vai trò quan trọng bằng cách quản lý toàn bộ nhật ký trò chuyện và tạo câu trả lời dựa trên các lượt tương tác trước đó bằng cách sử dụng mô hình Gemini. Cụ thể, mô hình Gemini-pro được dùng để tạo câu trả lời. Để thu hẹp khoảng cách giao tiếp giữa các môi trường lập trình, Cầu bot trò chuyện sử dụng ZeroMQ. Thành phần này cho phép giao tiếp liền mạch giữa Dịch vụ chatbot và các mô-đun tiện ích NaoQi. Mô-đun nhận dạng lời nói chịu trách nhiệm thu âm đầu vào âm thanh từ micrô của rô-bốt bằng cách sử dụng NaoQi ALAudioDevice. Các bản ghi âm được phân đoạn thông qua ngưỡng âm lượng. Sau đó, các bản ghi được phân đoạn này sẽ được gửi đến dịch vụ đám mây của Google để phân tích lời nói thành văn bản. Nếu nhận dạng thành công lời nói, văn bản thu được sẽ được chuyển tiếp đến Cầu chatbot.
Mô-đun đối thoại chuyển đổi các câu trả lời văn bản do Gemini tạo thành ngôn ngữ nói bằng cách sử dụng NaoQi ALAnimatedSpeech. Mô-đun này cũng phối hợp với Mô-đun nhận dạng lời nói để tạm dừng bản ghi âm khi rô-bốt đang nói, đảm bảo hệ thống đối thoại theo lượt, trong đó rô-bốt nghe và phản hồi luân phiên.
Được tạo bằng
- Rô-bốt hình người
Nhóm
Từ
Vương quốc Anh