Gemini 휴머노이드 로봇
Gemini 기반 로봇이 더 자연스럽고 몰입도 높은 환경을 만듭니다.
기능
통합에는 챗봇 서비스, 챗봇 브리지, 음성 인식 모듈, 대화 모듈이라는 여러 주요 구성요소가 포함됩니다. 챗봇 서비스는 전체 대화 기록을 관리하고 Gemini 모델을 사용하여 이전 상호작용에 기반하여 응답을 생성하는 중요한 역할을 합니다. 특히 Gemini-pro 모델은 대답을 생성하는 데 사용됩니다. Chatbot Bridge는 다양한 프로그래밍 환경 간의 통신 격차를 해소하기 위해 ZeroMQ를 활용합니다. 이 구성요소를 사용하면 챗봇 서비스와 NaoQi 확장 프로그램 모듈 간에 원활한 통신이 가능합니다. 음성 인식 모듈은 NaoQi ALAudioDevice를 사용하여 로봇의 마이크에서 오디오 입력을 캡처합니다. 오디오 녹음 파일은 볼륨 기준점을 통해 분할됩니다. 그런 다음 이러한 분할된 녹음 파일이 음성 텍스트 변환 분석을 위해 Google의 클라우드 서비스로 전송됩니다. 음성이 인식되면 결과 텍스트가 Chatbot Bridge로 전달됩니다.
대화 모듈은 NaoQi ALAnimatedSpeech를 사용하여 Gemini에서 생성된 텍스트 응답을 구어로 변환합니다. 또한 이 모듈은 음성 인식 모듈과 협력하여 로봇이 말하는 동안 오디오 녹음을 일시중지하여 로봇이 번갈아 듣고 응답하는 대화 주도형 대화 시스템을 보장합니다.
구성용 제품
- 휴머노이드 로봇
팀
From
영국