Pomo
Antropomorfizza qualsiasi cosa: parla con i tuoi animali domestici, i dipinti e altro ancora
Descrizione
Ci siamo ispirati alla demo del prodotto Google Project Astra, ma volevamo modificare la richiesta di sistema per provare casi d'uso nuovi e divertenti. Purtroppo, Astra non è ancora stato rilasciato né ha un'API con manipolazione della richiesta di sistema, quindi abbiamo deciso di creare la nostra versione open source.
Per un caso d'uso iniziale, utilizziamo una serie di modelli di IA per consentire agli utenti di interagire con l'ambiente circostante in modi nuovi e divertenti. Nello specifico, possono antropomorfizzare qualsiasi cosa, dal cane/gatto domestico, a un dipinto su una parete, al caffè che stanno bevendo. L'utente fa clic su un oggetto su cui viene creata una maschera utilizzando i modelli TensorFlow e invia il ritaglio dell'oggetto insieme allo sfondo come due immagini a Gemini Flash (vedi https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identifica l'oggetto e avviamo una nuova chat dello stream di Gemini in cui il prompt del sistema informa Gemini del suo nuovo ruolo (ad es. il dipinto sulla parete). L'utente può quindi interagire con questo nuovo oggetto / animale antropomorfizzato.
Utilizziamo il rilevamento dell'attività vocale (VAD) per identificare quando l'utente parla e, dopo 1,3 secondi di silenzio, inviamo a Gemini l'ultima schermata acquisita della videocamera insieme all'audio per continuare la conversazione. Quando Gemini risponde, il testo viene convertito in parlato utilizzando l'API di streaming di conversione di testo in voce di ElevenLabs. Tra il segmentatore di immagini di Google, il flusso ottico, Gemini Flash (due volte), il VAD e la conversione da testo a voce, utilizziamo 6 modelli di IA nella nostra pipeline.
- Sam e Tim
Realizzato con
- Web/Chrome
- Segmentatore interattivo di Google
Team
Di
Pomo
Da
Stati Uniti