Pomo
将任何事物拟人化 - 与宠物、画作等对话
作用
我们受到 Google Project Astra 产品演示的启发,但希望更改系统提示,以尝试有趣的新用例。很遗憾,Astra 尚未发布,也没有提供可操控系统提示的 API,因此我们决定自行创建开源版本。
作为起始用例,我们使用一系列 AI 模型,让用户能够以新颖有趣的方式与周围环境互动!具体而言,他们可以将任何事物拟人化,从宠物狗/猫、墙上的画作到他们正在喝的咖啡。用户点击某个对象,我们会使用 TensorFlow 模型为其创建遮罩,并将对象的剪裁图像和背景作为两张图片发送到 Gemini Flash(请参阅 https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter)。Gemini 会识别该对象,然后我们会发起新的 Gemini 流式聊天,系统提示会告知 Gemini 其新角色(例如墙上的画)。然后,用户可以与这个新的拟人化对象 / 动物对话。
我们使用语音活动检测 (VAD) 来确定用户何时在说话,并在用户保持沉默 1.3 秒后,将摄像头的最新屏幕截图以及音频发送给 Gemini,以便继续对话。当 Gemini 做出回答时,系统会使用 ElevenLabs 文本转语音流式传输 API 将文本转换为语音。在我们的流水线中,我们使用了 6 个 AI 模型,分别是 Google 图像分割器、光流、Gemini Flash(两次)、VAD 和文本转语音。
- Sam 和 Tim
可采用以下设备打造
- Web/Chrome
- Google 互动细分工具
团队
更新者
Pomo
发件人
美国