Автопоток
Обеспечение легкого управления компьютером с помощью естественного языка.
Что он делает
AutoFlow — это голосовой помощник, предназначенный для упрощения использования компьютера и навигации для пользователей с ограниченными физическими возможностями за счет интеграции Gemini в качестве мощного агента, управляемого естественным языком.
Близнецы служат мозгом трех наших агентов.
### Агент планирования
Агент планирования отвечает за создание плана из элемента пользовательского интерфейса и снимка экрана, элемент пользовательского интерфейса извлекается из Win32 UIAutomation API, а снимок экрана берется из Win32 User API и попросит Gemini создать план на основе этих данных.
Этот агент имеет функцию только запуска выполнения плана и пересылает его в систему планирования звонка.
### Определить агента
Агент идентификации отвечает за идентификацию элемента пользовательского интерфейса, с которым пользователь хочет взаимодействовать, например кнопки или ссылки. Этот агент будет использовать Gemini для идентификации элемента, с которым пользователь хочет взаимодействовать.
### Навигационный агент
Агент навигации отвечает за выполнение событий мыши и клавиатуры для взаимодействия с экраном. Этот агент будет использовать Gemini для преобразования естественного языка, такого как «щелчок левой кнопкой мыши», в выполнение с помощью мыши и клавиатуры.
Построен с
- Преобразование речи Google в текст (STT)
Команда
К
Автопоток
От
Таиланд
Автопоток
Обеспечение легкого управления компьютером с помощью естественного языка.
Что он делает
AutoFlow — это голосовой помощник, предназначенный для упрощения использования компьютера и навигации для пользователей с ограниченными физическими возможностями за счет интеграции Gemini в качестве мощного агента, управляемого естественным языком.
Близнецы служат мозгом трех наших агентов.
### Агент планирования
Агент планирования отвечает за создание плана из элемента пользовательского интерфейса и снимка экрана, элемент пользовательского интерфейса извлекается из Win32 UIAutomation API, а снимок экрана берется из Win32 User API и попросит Gemini создать план на основе этих данных.
Этот агент имеет функцию только запуска выполнения плана и пересылает его в систему планирования звонка.
### Определить агента
Агент идентификации отвечает за идентификацию элемента пользовательского интерфейса, с которым пользователь хочет взаимодействовать, например кнопки или ссылки. Этот агент будет использовать Gemini для идентификации элемента, с которым пользователь хочет взаимодействовать.
### Навигационный агент
Агент навигации отвечает за выполнение событий мыши и клавиатуры для взаимодействия с экраном. Этот агент будет использовать Gemini для преобразования естественного языка, такого как «щелчок левой кнопкой мыши», в выполнение с помощью мыши и клавиатуры.
Построен с
- Преобразование речи Google в текст (STT)
Команда
К
Автопоток
От
Таиланд