Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pomo

Anthropomorphiser n'importe quoi : parlez à vos animaux de compagnie, à vos tableaux, etc.

Description

Nous nous sommes inspirés de la démonstration du produit Project Astra de Google, mais nous voulions modifier l'invite système pour essayer de nouveaux cas d'utilisation amusants. Malheureusement, Astra n'est pas encore disponible et ne dispose pas d'API avec manipulation des requêtes système. Nous avons donc décidé de créer notre propre version Open Source.

Pour un premier cas d'utilisation, nous utilisons une série de modèles d'IA pour permettre aux utilisateurs d'interagir avec leur environnement de manière nouvelle et divertissante. Plus précisément, ils peuvent anthropomorphiser n'importe quoi, de leur chien ou chat de compagnie à un tableau sur un mur, en passant par le café qu'ils boivent. L'utilisateur clique sur un objet pour lequel nous créons un masque à l'aide de modèles TensorFlow, puis envoie la découpe de l'objet avec l'arrière-plan en tant que deux images à Gemini Flash (voir https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identifie l'objet et nous démarrons une nouvelle discussion Gemini Stream, où l'invite système informe Gemini de son nouveau rôle (par exemple, le tableau sur le mur). L'utilisateur peut ensuite converser avec cet objet / animal anthropomorphisé.

Nous utilisons la détection de l'activité vocale (VAD) pour identifier quand l'utilisateur parle.Après 1, 3 seconde de silence, nous envoyons la dernière capture d'écran de sa caméra avec l'audio à Gemini pour poursuivre la conversation. Lorsque Gemini répond, le texte est converti en parole à l'aide de l'API de streaming Text-to-Speech d'ElevenLabs. Nous utilisons six modèles d'IA dans notre pipeline : le segmenteur d'images Google, le flux optique, Gemini Flash (deux fois), la détection de la voix et la synthèse vocale.

- Sam et Tim

Conçu avec

Web/Chrome
Segmenteur interactif de Google

Équipe

Par

Pomo

États-Unis