Помо
Очеловечивайте что угодно — разговаривайте со своими питомцами, картинами и многим другим
Что он делает
Мы были вдохновлены демонстрацией продукта Google Project Astra, но хотели изменить системное приглашение, чтобы попробовать новые и забавные варианты использования. К сожалению, Astra еще не выпущена и не будет иметь API для манипуляции системным приглашением, поэтому мы решили создать собственную версию с открытым исходным кодом.
Для начального варианта использования мы используем ряд моделей ИИ, чтобы позволить пользователям взаимодействовать с их окружением новыми и интересными способами! В частности, они могут антропоморфизировать что угодно, от своей собаки/кошки до картины на стене и кофе, который они пьют. Пользователь нажимает на объект, на который мы создаем маску с помощью моделей TensorFlow и отправляем вырезанный объект вместе с фоном в виде двух изображений в Gemini Flash (см. https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini идентифицирует объект, и мы начинаем новый потоковый чат Gemini, в котором системное приглашение информирует Gemini о его новой роли (например, картина на стене). Затем пользователь может общаться с этим новым антропоморфизированным объектом/животным.
Мы используем функцию обнаружения голосовой активности (VAD) для определения того, когда пользователь говорит, и после 1,3 секунд тишины отправляем последний снимок экрана с его камеры вместе со звуком в Gemini для продолжения разговора. Когда Gemini отвечает, текст преобразуется в речь с помощью API потоковой передачи текста в речь ElevenLabs. Между сегментатором изображений Google, оптическим потоком, Gemini Flash (дважды), VAD и преобразованием текста в речь мы используем 6 моделей ИИ в нашем конвейере.
- Сэм и Тим
Построено с
- Веб/Хром
- интерактивный сегментатор от Google
Команда
К
Помо
От
Соединенные Штаты