Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pomo

将任何事物拟人化 - 与宠物、画作等对话

作用

我们受到 Google Project Astra 产品演示的启发，但希望更改系统提示，以尝试有趣的新用例。很遗憾，Astra 尚未发布，也没有提供可操控系统提示的 API，因此我们决定自行创建开源版本。

作为起始用例，我们使用一系列 AI 模型，让用户能够以新颖有趣的方式与周围环境互动！具体而言，他们可以将任何事物拟人化，从宠物狗/猫、墙上的画作到他们正在喝的咖啡。用户点击某个对象，我们会使用 TensorFlow 模型为其创建遮罩，并将对象的剪裁图像和背景作为两张图片发送到 Gemini Flash（请参阅 https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter）。Gemini 会识别该对象，然后我们会发起新的 Gemini 流式聊天，系统提示会告知 Gemini 其新角色（例如墙上的画）。然后，用户可以与这个新的拟人化对象 / 动物对话。

我们使用语音活动检测 (VAD) 来确定用户何时在说话，并在用户保持沉默 1.3 秒后，将摄像头的最新屏幕截图以及音频发送给 Gemini，以便继续对话。当 Gemini 做出回答时，系统会使用 ElevenLabs 文本转语音流式传输 API 将文本转换为语音。在我们的流水线中，我们使用了 6 个 AI 模型，分别是 Google 图像分割器、光流、Gemini Flash（两次）、VAD 和文本转语音。

- Sam 和 Tim

可采用以下设备打造

Web/Chrome
Google 互动细分工具

团队

更新者

Pomo

发件人

美国