Pomo

Antropomorfizar qualquer coisa: fale com seus animais de estimação, pinturas e muito mais

O que faz?

Nos inspiramos na demonstração do produto do Project Astra do Google, mas queríamos mudar a solicitação do sistema para testar casos de uso novos e divertidos. Infelizmente, o Astra ainda não foi lançado e não teria uma API com manipulação de solicitação do sistema. Por isso, criamos nossa própria versão de código aberto.

Para um caso de uso inicial, usamos uma série de modelos de IA para permitir que os usuários interajam com o ambiente de maneiras novas e divertidas. Especificamente, eles podem antropomorfizar qualquer coisa, desde um cachorro/gato de estimação, uma pintura na parede ou o café que estão bebendo. O usuário clica em um objeto, e criamos uma máscara usando modelos do TensorFlow e enviamos o recorte do objeto com o plano de fundo como duas imagens para o Gemini Flash (consulte https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). O Gemini identifica o objeto e iniciamos uma nova conversa de transmissão do Gemini em que o comando do sistema informa ao Gemini sobre o novo papel dele (por exemplo, a pintura na parede). O usuário pode conversar com esse novo objeto / animal antropomorfizado.

Usamos a detecção de atividade de voz (VAD) para identificar quando o usuário está falando e, após 1,3 segundo de silêncio, enviamos a captura de tela mais recente da câmera com o áudio para o Gemini para continuar a conversa. Quando o Gemini responde, o texto é convertido em voz usando a API de streaming de texto para fala da ElevenLabs. Entre o segmentador de imagens do Google, o fluxo óptico, o Gemini Flash (duas vezes), o VAD e a conversão de texto em fala, usamos seis modelos de IA no nosso pipeline.

- Sam e Tim

Desenvolvido com

  • Web/Chrome
  • Segmentador interativo do Google

Equipe

Por

Pomo

De

Estados Unidos