Gemini 人形机器人
由 Gemini 赋能的机器人,打造更自然、更具吸引力的体验。
作用
集成涉及多个关键组件:聊天机器人服务、聊天机器人桥接、语音识别模块和对话模块。聊天机器人服务发挥着至关重要的作用,它会管理整个对话历史记录,并使用 Gemini 模型根据之前的互动生成回答。具体而言,Gemini Pro 模型用于生成回答。为了弥合不同编程环境之间的通信差距,聊天机器人桥接使用了 ZeroMQ。此组件可实现聊天机器人服务与 NaoQi 扩展模块之间的无缝通信。语音识别模块负责使用 NaoQi ALAudioDevice 从机器人的麦克风捕获音频输入。系统会通过音量阈值对录音进行细分。然后,这些分段录音会发送到 Google 的云服务,以进行语音转文字分析。如果成功识别出语音,系统会将生成的文本转发给聊天机器人桥接。
对话模块使用 NaoQi ALAnimatedSpeech 将 Gemini 生成的文本回答转换为口语。此模块还会与语音识别模块协调,在机器人说话时暂停录音,从而确保机器人交替听取和响应的轮流对话系统。
可采用以下设备打造
- 人形机器人
团队
发件人
英国