Pomo

Antropomorfiza cualquier cosa: habla con tus mascotas, pinturas y mucho más

Qué hace

Nos inspiramos en la demostración del producto de Google Project Astra, pero queríamos cambiar la instrucción del sistema para probar casos de uso nuevos y divertidos. Lamentablemente, Astra aún no se lanzó ni tendría una API con manipulación de instrucciones del sistema, por lo que nos propusimos crear nuestra propia versión de código abierto.

Para un caso de uso inicial, usamos una serie de modelos de IA para permitir que los usuarios interactúen con su entorno de formas nuevas y entretenidas. Específicamente, pueden antropomorfizar cualquier cosa, desde su perro o gato, hasta una pintura en una pared o el café que están bebiendo. El usuario hace clic en un objeto sobre el que creamos una máscara con modelos de TensorFlow y enviamos el recorte del objeto junto con el fondo como dos imágenes a Gemini Flash (consulta https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identifica el objeto y comenzamos un nuevo chat de transmisión de Gemini en el que el mensaje del sistema le informa a Gemini su nuevo rol (p.ej., el cuadro en la pared). Luego, el usuario puede conversar con este nuevo objeto o animal antropomorfizado.

Usamos la detección de actividad de voz (VAD) para identificar cuándo el usuario está hablando y, después de 1.3 segundos de silencio, enviamos la captura de pantalla más reciente de su cámara junto con el audio a Gemini para continuar la conversación. Cuando Gemini responde, el texto se convierte en voz mediante la API de transmisión de texto a voz de ElevenLabs. Entre el segmentador de imágenes de Google, el flujo óptico, Gemini Flash (dos veces), el VAD y el texto a voz, usamos 6 modelos de IA en nuestra canalización.

- Sam y Tim

Con la tecnología de

Web/Chrome
Segmentador interactivo de Google

Equipo

Pomo

Estados Unidos