Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pomo

將任何物品擬人化 - 與寵物、畫作等對話

用途

我們受到 Google Project Astra 產品示範的啟發，但想變更系統提示，嘗試新的有趣用途。很遺憾，Astra 尚未發布，也沒有提供可操控系統提示的 API，因此我們決定自行打造開放原始碼版本。

我們會先使用一系列 AI 模型，讓使用者以新穎有趣的方式與周遭環境互動！具體來說，他們可以將任何事物擬人化，從寵物狗/貓、牆上的畫作，到正在喝的咖啡都行。使用者點選物件後，我們會使用 TensorFlow 模型建立遮罩，並將物件裁剪區塊連同背景以兩張圖片的形式傳送至 Gemini Flash (請參閱 https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter)。Gemini 會識別物件，並開始新的 Gemini 串流聊天，系統提示會告知 Gemini 新的角色 (例如牆上的畫作)。使用者可以與這個擬人化物件 / 動物對話。

我們會使用語音活動偵測 (VAD) 技術，判斷使用者何時正在說話，並在 1.3 秒的靜默時間過後，將攝影機的最新螢幕截圖和音訊傳送至 Gemini，以便繼續對話。Gemini 回應時，系統會使用 ElevenLabs 文字轉語音串流 API 將文字轉換為語音。在管道中，我們使用了 6 個 AI 模型，包括 Google 圖像分割器、光流、Gemini Flash (兩次)、VAD 和文字轉語音。

- Sam & Tim

採用

網頁/Chrome
Google 互動式區隔工具

團隊

變更者

Pomo

寄件者

美國