Pomo
Anthropomorphiser n'importe quoi : parlez à vos animaux de compagnie, à vos tableaux, etc.
Description
Nous nous sommes inspirés de la démonstration du produit Project Astra de Google, mais nous voulions modifier l'invite système pour essayer de nouveaux cas d'utilisation amusants. Malheureusement, Astra n'est pas encore disponible et ne dispose pas d'API avec manipulation des requêtes système. Nous avons donc décidé de créer notre propre version Open Source.
Pour un premier cas d'utilisation, nous utilisons une série de modèles d'IA pour permettre aux utilisateurs d'interagir avec leur environnement de manière nouvelle et divertissante. Plus précisément, ils peuvent anthropomorphiser n'importe quoi, de leur chien ou chat de compagnie à un tableau sur un mur, en passant par le café qu'ils boivent. L'utilisateur clique sur un objet pour lequel nous créons un masque à l'aide de modèles TensorFlow, puis envoie la découpe de l'objet avec l'arrière-plan en tant que deux images à Gemini Flash (voir https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identifie l'objet et nous démarrons une nouvelle discussion Gemini Stream, où l'invite système informe Gemini de son nouveau rôle (par exemple, le tableau sur le mur). L'utilisateur peut ensuite converser avec cet objet / animal anthropomorphisé.
Nous utilisons la détection de l'activité vocale (VAD) pour identifier quand l'utilisateur parle.Après 1, 3 seconde de silence, nous envoyons la dernière capture d'écran de sa caméra avec l'audio à Gemini pour poursuivre la conversation. Lorsque Gemini répond, le texte est converti en parole à l'aide de l'API de streaming Text-to-Speech d'ElevenLabs. Nous utilisons six modèles d'IA dans notre pipeline : le segmenteur d'images Google, le flux optique, Gemini Flash (deux fois), la détection de la voix et la synthèse vocale.
- Sam et Tim
Conçu avec
- Web/Chrome
- Segmenteur interactif de Google
Équipe
Par
Pomo
De
États-Unis