Pomo

將任何物品擬人化 - 與寵物、畫作等對話

用途

我們受到 Google Project Astra 產品示範的啟發,但想變更系統提示,嘗試新的有趣用途。很遺憾,Astra 尚未發布,也沒有提供可操控系統提示的 API,因此我們決定自行打造開放原始碼版本。

我們會先使用一系列 AI 模型,讓使用者以新穎有趣的方式與周遭環境互動!具體來說,他們可以將任何事物擬人化,從寵物狗/貓、牆上的畫作,到正在喝的咖啡都行。使用者點選物件後,我們會使用 TensorFlow 模型建立遮罩,並將物件裁剪區塊連同背景以兩張圖片的形式傳送至 Gemini Flash (請參閱 https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter)。Gemini 會識別物件,並開始新的 Gemini 串流聊天,系統提示會告知 Gemini 新的角色 (例如牆上的畫作)。使用者可以與這個擬人化物件 / 動物對話。

我們會使用語音活動偵測 (VAD) 技術,判斷使用者何時正在說話,並在 1.3 秒的靜默時間過後,將攝影機的最新螢幕截圖和音訊傳送至 Gemini,以便繼續對話。Gemini 回應時,系統會使用 ElevenLabs 文字轉語音串流 API 將文字轉換為語音。在管道中,我們使用了 6 個 AI 模型,包括 Google 圖像分割器、光流、Gemini Flash (兩次)、VAD 和文字轉語音。

- Sam & Tim

採用

  • 網頁/Chrome
  • Google 互動式區隔工具

團隊

變更者

Pomo

寄件者

美國