Gemini ヒューマノイド ロボット

Gemini を搭載したロボットが、より自然で魅力的なエクスペリエンスを実現します。

機能

この統合には、Chatbot Service、Chatbot Bridge、Speech Recognition Module、Dialogue Module の複数の主要コンポーネントが関与します。Chatbot Service は、会話の履歴全体を管理し、Gemini モデルを使用して過去のやり取りに基づいて回答を生成する重要な役割を果たします。具体的には、Gemini-pro モデルが回答の生成に使用されます。異なるプログラミング環境間の通信ギャップを埋めるために、Chatbot Bridge は ZeroMQ を使用します。このコンポーネントにより、Chatbot Service と NaoQi 拡張モジュール間のシームレスな通信が可能になります。音声認識モジュールは、NaoQi ALAudioDevice を使用してロボットのマイクから音声入力をキャプチャします。音声録音は、音量のしきい値によって分割されます。これらの分割された録音は、音声文字変換分析のために Google のクラウドサービスに送信されます。音声が正常に認識されると、生成されたテキストが Chatbot Bridge に転送されます。
Dialogue モジュールは、NaoQi ALAnimatedSpeech を使用して、Gemini によって生成されたテキスト レスポンスを音声に変換します。また、このモジュールは音声認識モジュールと連携して、ロボットが話している間は音声録音を一時停止し、ロボットが交互に聞き取りと応答を行うターンベースの会話システムを実現します。

構成

  • 人型ロボット

チーム

差出人

英国