Pomo

Herhangi bir nesneyi insanlaştırın (ör. evcil hayvanlarınızla, tablolarınızla konuşun)

Ne işe yarar?

Google Project Astra ürün demosundan ilham aldık ancak yeni ve eğlenceli kullanım alanlarını denemek için sistem isteminde değişiklik yapmak istedik. Maalesef Astra henüz yayınlanmadı ve sistem istemi değiştirme özelliğine sahip bir API'si olmayacaktı. Bu nedenle kendi açık kaynak sürümümüzü oluşturmaya karar verdik.

Başlangıçta, kullanıcıların çevreleriyle yeni ve eğlenceli yollarla etkileşime geçmesine olanak tanımak için bir dizi yapay zeka modeli kullanıyoruz. Özellikle de evcil köpek/kedilerinden duvardaki bir resme, içtikleri kahveye kadar her şeyi insansılaştırabilirler. Kullanıcı, TensorFlow modellerini kullanarak maskesi oluşturulan bir nesneyi tıklar ve nesnenin kesilmiş resmini arka planla birlikte iki resim olarak Gemini Flash'a gönderir (bkz. https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini nesneyi tanımlar ve yeni bir Gemini yayın sohbeti başlatırız.Bu sohbette sistem istemi Gemini'yi yeni rolü (ör. duvardaki resim) hakkında bilgilendirir. Kullanıcı, bu yeni insansılaştırılmış nesne / hayvanla sohbet edebilir.

Kullanıcı ne zaman konuştuğunu belirlemek için ses etkinliği algılama (VAD) özelliğini kullanırız.1, 3 saniyelik bir sessizlikten sonra, sohbete devam etmek için kameranın son ekran görüntüsünü sesle birlikte Gemini'ye göndeririz. Gemini yanıt verdiğinde metin, ElevenLabs metin okuma akış API'si kullanılarak konuşmaya dönüştürülür. Google görüntü segmentörü, optik akış, Gemini Flash (iki kez), VAD ve metinden konuşmaya dönüştürme arasında ardışık düzenimizde 6 yapay zeka modeli kullanıyoruz.

- Sam ve Tim

Aşağıdakilerle tasarlandı:

  • Web/Chrome
  • Google tarafından geliştirilen etkileşimli segmenter

Takım

Değişikliği yapan

Pomo

Nereden

Amerika Birleşik Devletleri