Pomo
あらゆるものを擬人化 - ペットや絵画などに話しかけることができます
機能
Google Project Astra のプロダクトのデモに触発されましたが、システム プロンプトを変更して、楽しく新しいユースケースを試すことにしました。残念ながら、Astra はまだリリースされておらず、システム プロンプトを操作する API もないため、Google は独自のオープンソース バージョンを作成することにしました。
最初のユースケースとして、一連の AI モデルを使用して、ユーザーが周囲と新しい楽しい方法でやり取りできるようにします。具体的には、ペットの犬や猫から、壁に描かれた絵、飲んでいるコーヒーまで、あらゆるものを擬人化できます。ユーザーがオブジェクトをクリックすると、TensorFlow モデルを使用してマスクが作成され、オブジェクトの切り抜きと背景が 2 つの画像として Gemini Flash に送信されます(https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter をご覧ください)。Gemini がオブジェクトを識別すると、新しい Gemini ストリーム チャットが開始されます。このチャットでは、システム プロンプトが Gemini に新しい役割(壁に描かれた絵など)を通知します。ユーザーは、この新しい擬人化されたオブジェクトや動物と会話できます。
Google は、音声アクティビティ検出(VAD)を使用して、ユーザーが話しているタイミングを特定します。1.3 秒間無音が続くと、カメラの最新のスクリーン キャプチャと音声を Gemini に送信して会話を続けます。Gemini が応答すると、ElevenLabs のテキスト読み上げストリーミング API を使用してテキストが音声に変換されます。Google 画像セグメンテーション、オプティカル フロー、Gemini Flash(2 回)、VAD、テキスト読み上げの 6 つの AI モデルがパイプラインで使用されます。
- Sam と Tim
構成
- ウェブ/Chrome
- Google のインタラクティブ セグメンタ
チーム
By
Pomo
差出人
米国