Gemini Humanoid Robot
Gemini-gestützter Roboter für ein natürlicheres und ansprechenderes Erlebnis
Funktion
Die Integration umfasst mehrere wichtige Komponenten: den Chatbot-Dienst, die Chatbot-Brücke, das Spracherkennungsmodul und das Dialogmodul. Der Chatbot-Dienst spielt eine wichtige Rolle, da er den gesamten Dialogverlauf verwaltet und Antworten basierend auf früheren Interaktionen mithilfe des Gemini-Modells generiert. Insbesondere wird das Gemini-Pro-Modell verwendet, um Antworten zu generieren. Um die Kommunikationslücke zwischen verschiedenen Programmierumgebungen zu schließen, verwendet die Chatbot Bridge ZeroMQ. Diese Komponente ermöglicht eine nahtlose Kommunikation zwischen dem Chatbot-Dienst und den NaoQi-Erweiterungsmodulen. Das Spracherkennungsmodul ist dafür verantwortlich, die Audioeingabe über das Mikrofon des Roboters mit dem NaoQi ALAudioDevice zu erfassen. Die Audioaufnahmen werden anhand von Lautstärkegrenzwerten segmentiert. Diese segmentierten Aufnahmen werden dann zur Spracherkennung an den Cloud-Dienst von Google gesendet. Wenn die Sprache erkannt wurde, wird der resultierende Text an die Chatbot-Brücke weitergeleitet.
Das Dialogmodul wandelt die von Gemini generierten Textantworten mithilfe von NaoQi ALAnimatedSpeech in gesprochene Sprache um. Dieses Modul koordiniert sich auch mit dem Spracherkennungsmodul, um Audioaufnahmen zu pausieren, während der Roboter spricht. So wird ein abwechselndes Dialogsystem ermöglicht, bei dem der Roboter abwechselnd zuhört und antwortet.
Basis
- Humanoider Roboter
Team
Von
UK