Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Robô humanoide Gemini

Robô com tecnologia do Gemini criando uma experiência mais natural e envolvente.

O que faz?

A integração envolve vários componentes principais: o serviço de chatbot, a ponte de chatbot, o módulo de reconhecimento de fala e o módulo de diálogo. O serviço de chatbot tem um papel crucial, gerenciando todo o histórico de diálogo e gerando respostas com base em interações anteriores usando o modelo Gemini. Especificamente, o modelo Gemini-pro é usado para gerar respostas. Para preencher a lacuna de comunicação entre diferentes ambientes de programação, a Chatbot Bridge usa o ZeroMQ. Esse componente permite uma comunicação perfeita entre o serviço de chatbot e os módulos de extensão do NaoQi. O módulo de reconhecimento de fala é responsável por capturar a entrada de áudio do microfone do robô usando o NaoQi ALAudioDevice. As gravações de áudio são segmentadas pelo limite de volume. Em seguida, essas gravações segmentadas são enviadas ao serviço de nuvem do Google para análise de voz em texto. Se a fala for reconhecida, o texto resultante será encaminhado para a ponte do Chatbot.
O Módulo de diálogo transforma as respostas de texto geradas pelo Gemini em linguagem falada usando o NaoQi ALAnimatedSpeech. Esse módulo também coordena com o módulo de reconhecimento de fala para pausar as gravações de áudio enquanto o robô está falando, garantindo um sistema de diálogo baseado em turnos em que o robô ouve e responde alternadamente.

Desenvolvido com

Robô humanóide

Equipe

Reino Unido