Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pomo

어떤 대상이든 의인화하여 반려동물, 그림 등과 대화하기

기능

Google Project Astra 제품 데모에서 아이디어를 얻었지만 시스템 프롬프트를 변경하여 새롭고 재미있는 사용 사례를 시도하고자 했습니다. 안타깝게도 Astra는 아직 출시되지 않았으며 시스템 프롬프트 조작을 위한 API도 없으므로 자체 오픈소스 버전을 만들기로 했습니다.

시작 사용 사례에서는 일련의 AI 모델을 사용하여 사용자가 새롭고 재미있는 방식으로 주변 환경과 상호작용할 수 있도록 지원합니다. 특히 반려견/반려묘, 벽에 걸린 그림, 마시는 커피 등 무엇이든 의인화할 수 있습니다. 사용자가 객체를 클릭하면 TensorFlow 모델을 사용하여 객체 위에 마스크를 만들고 객체의 잘라낸 부분을 배경과 함께 두 이미지로 Gemini Flash에 전송합니다 (https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter 참고). Gemini가 물체를 식별하고 새 Gemini 스트림 채팅을 시작하면 시스템 프롬프트가 Gemini에 물체의 새로운 역할 (예: 벽에 걸린 그림)을 알립니다. 그러면 사용자는 이 새로운 인간화된 물체 / 동물과 대화할 수 있습니다.

Google에서는 음성 활동 감지 (VAD)를 사용하여 사용자가 말하는 시점을 식별하고, 1.3초 동안 침묵이 이어지면 대화를 계속할 수 있도록 오디오와 함께 카메라의 최신 화면 캡처를 Gemini로 전송합니다. Gemini가 응답하면 ElevenLabs Text-to-Speech Streaming API를 사용하여 텍스트가 음성으로 변환됩니다. Google 이미지 세그먼터, 광학 흐름, Gemini Flash (2회), VAD, 텍스트 음성 변환 등 6가지 AI 모델이 파이프라인에 사용됩니다.

- 샘 & 팀

구성용 제품

웹/Chrome
Google의 대화형 세그먼터

팀

작성자:

Pomo

From

미국