АвтоФлоу

Расширение возможностей простого управления компьютером с помощью естественного языка.

Что он делает

AutoFlow — это голосовой помощник, призванный упростить использование компьютера и навигацию для пользователей с ограниченными физическими возможностями путем интеграции Gemini в качестве мощного, управляемого естественным языком агента.

Gemini выполняет функции мозга наших трех агентов.
### Агент по планированию
Агент планирования отвечает за создание плана из элемента пользовательского интерфейса и снимка экрана. Элемент пользовательского интерфейса извлекается из API Win32 UIAutomation, а снимок экрана берется из API Win32 User и попросит Gemini создать план из этих данных.
Этот агент имеет функцию только для запуска выполнения плана и переадресации в систему кольцевого планирования.

### Определить агента
Агент идентификации отвечает за определение элемента пользовательского интерфейса, с которым пользователь хочет взаимодействовать, например, кнопки или ссылки. Этот агент будет использовать Gemini для определения элемента, с которым пользователь хочет взаимодействовать.

### Навигационный агент
Навигационный агент отвечает за выполнение событий мыши и клавиатуры для взаимодействия с экраном. Этот агент будет использовать Gemini для преобразования естественного языка, такого как «щелчок левой кнопкой мыши», в выполнение действий мыши и клавиатуры.

Построено с

  • Google Речь в Текст (STT)

Команда

К

АвтоФлоу

От

Таиланд