Pomo

Antropomorfizoni çdo gjë - flisni me kafshët tuaja shtëpiake, pikturat dhe më shumë

Çfarë bën

Ne u frymëzuam nga demonstrimi i produktit Google Project Astra, por donim të ndryshonim kërkesën e sistemit për të provuar raste përdorimi të reja dhe argëtuese. Fatkeqësisht, Astra nuk është lëshuar ende dhe as nuk do të kishte një API me manipulim të shpejtë të sistemit, kështu që ne vendosëm të krijojmë versionin tonë me burim të hapur.

Për një rast përdorimi fillestar, ne përdorim një sërë modelesh të AI për të lejuar përdoruesit të ndërveprojnë me mjedisin e tyre në mënyra të reja dhe argëtuese! Konkretisht, ata mund të antropomorfizojnë çdo gjë, nga qeni/macja e tyre e përkëdhelur, te një pikturë në mur, te kafeja që po pinë. Përdoruesi klikon mbi një objekt mbi të cilin ne krijojmë një maskë duke përdorur modelet e TensorFlow dhe dërgojmë prerjen e objektit së bashku me sfondin si dy imazhe te Gemini Flash (shih https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Binjakët identifikojnë objektin dhe ne fillojmë një bisedë të re të transmetimit të Binjakëve ku kërkesa e sistemit informon Binjakët për rolin e tij të ri (p.sh. piktura në mur). Përdoruesi më pas mund të bisedojë me këtë objekt/kafshë të re të antropomorfizuar.

Ne përdorim zbulimin e aktivitetit të zërit (VAD) për të identifikuar kur përdoruesi flet dhe, pas 1,3 sekondash heshtje, ne dërgojmë regjistrimin më të fundit të ekranit të kamerës së tyre së bashku me audion te Binjakët për të vazhduar bisedën. Kur Binjakët përgjigjet, teksti konvertohet në të folur duke përdorur API-në e transmetimit tekst-në-fjalë të ElevenLabs. Midis segmentuesit të imazhit të Google, rrjedhës optike, Gemini Flash (dy herë), VAD-së dhe tekstit në të folur, ne përdorim 6 modele të AI në linjën tonë.

- Sam & Tim

E ndertuar me

  • Web/Chrome
  • segmentues interaktiv nga Google

Ekipi

Nga

Pomo

Nga

Shtetet e Bashkuara