AutoFlow

Possibilitando o controle simples do computador por meio de linguagem natural.

O que faz?

O AutoFlow é um assistente de acessibilidade por voz criado para simplificar o uso do computador e a navegação de usuários com deficiência física ao integrar o Gemini como um agente poderoso e orientado por linguagem natural.

Ele atua como o cérebro dos nossos três agentes.
### Agente de planejamento
O agente de planejamento é responsável por criar um plano com base no elemento da interface e na captura de tela, o elemento da interface é extraído da API UIAutomation do Win32, e a captura de tela foi tirada da API User Win32 e pede que o Gemini crie um plano com base nesses dados.
Este agente só tem a função de iniciar a execução do plano e vai encaminhar para o sistema de planejamento de anel.

### Identificar o agente
Identificar o agente é responsável por identificar o elemento da interface com que o usuário quer interagir, como botões ou links. Esse agente vai usar o Gemini para identificar o elemento com que o usuário quer interagir.

### Agente de navegação
O agente de navegação é responsável por executar eventos do mouse e do teclado para interagir com a tela. Ele vai usar o Gemini para converter linguagem natural, como o "clique com o botão esquerdo" do mouse, na execução do mouse e do teclado.

Desenvolvido com

  • Conversão de voz em texto do Google (STT, na sigla em inglês)

Equipe

Por

AutoFlow

De

Tailândia