Автопоток

Обеспечение легкого управления компьютером с помощью естественного языка.

Что он делает

AutoFlow — это голосовой помощник, предназначенный для упрощения использования компьютера и навигации для пользователей с ограниченными физическими возможностями за счет интеграции Gemini в качестве мощного агента, управляемого естественным языком.

Близнецы служат мозгом трех наших агентов.
### Агент планирования
Агент планирования отвечает за создание плана из элемента пользовательского интерфейса и снимка экрана, элемент пользовательского интерфейса извлекается из Win32 UIAutomation API, а снимок экрана берется из Win32 User API и попросит Gemini создать план на основе этих данных.
Этот агент имеет функцию только запуска выполнения плана и пересылает его в систему планирования звонка.

### Определить агента
Агент идентификации отвечает за идентификацию элемента пользовательского интерфейса, с которым пользователь хочет взаимодействовать, например кнопки или ссылки. Этот агент будет использовать Gemini для идентификации элемента, с которым пользователь хочет взаимодействовать.

### Навигационный агент
Агент навигации отвечает за выполнение событий мыши и клавиатуры для взаимодействия с экраном. Этот агент будет использовать Gemini для преобразования естественного языка, такого как «щелчок левой кнопкой мыши», в выполнение с помощью мыши и клавиатуры.

Построен с

  • Преобразование речи Google в текст (STT)

Команда

К

Автопоток

От

Таиланд

,

Автопоток

Обеспечение легкого управления компьютером с помощью естественного языка.

Что он делает

AutoFlow — это голосовой помощник, предназначенный для упрощения использования компьютера и навигации для пользователей с ограниченными физическими возможностями за счет интеграции Gemini в качестве мощного агента, управляемого естественным языком.

Близнецы служат мозгом трех наших агентов.
### Агент планирования
Агент планирования отвечает за создание плана из элемента пользовательского интерфейса и снимка экрана, элемент пользовательского интерфейса извлекается из Win32 UIAutomation API, а снимок экрана берется из Win32 User API и попросит Gemini создать план на основе этих данных.
Этот агент имеет функцию только запуска выполнения плана и пересылает его в систему планирования звонка.

### Определить агента
Агент идентификации отвечает за идентификацию элемента пользовательского интерфейса, с которым пользователь хочет взаимодействовать, например кнопки или ссылки. Этот агент будет использовать Gemini для идентификации элемента, с которым пользователь хочет взаимодействовать.

### Навигационный агент
Агент навигации отвечает за выполнение событий мыши и клавиатуры для взаимодействия с экраном. Этот агент будет использовать Gemini для преобразования естественного языка, такого как «щелчок левой кнопкой мыши», в выполнение с помощью мыши и клавиатуры.

Построен с

  • Преобразование речи Google в текст (STT)

Команда

К

Автопоток

От

Таиланд