AutoFlow

Possibilità di controllare facilmente il computer attraverso il linguaggio naturale.

Descrizione

AutoFlow è un assistente di accessibilità vocale progettato per semplificare l'uso del computer e la navigazione degli utenti con disabilità fisiche integrando Gemini come un potente agente basato sul linguaggio naturale.

Gemini è il cervello dei nostri 3 agenti.
### Agente di pianificazione
L'agente di pianificazione
L'agente di pianificazione è responsabile della creazione di un piano a partire da elementi UI e screenshot, gli elementi UI vengono estratti dall'API UIAutomation Win32, mentre lo screenshot viene acquisito dall'API Win32 User e chiede a Gemini di creare un piano a partire da questi dati.
Questo agente ha la funzione solo di avviare l'esecuzione del piano e inoltrerà il sistema di pianificazione delle chiamate.

### Identifica l'agente
L'agente di identificazione è responsabile di identificare gli elementi UI con cui l'utente vuole interagire, come pulsante o link. Questo agente utilizzerà Gemini per identificare gli elementi con cui l'utente vuole interagire.

### Agente di navigazione
L'agente di navigazione è responsabile di eseguire l'evento del mouse e della tastiera per interagire con lo schermo. Questo agente userà Gemini per convertire un linguaggio naturale, come il "clic con il tasto sinistro", in esecuzione con mouse e tastiera.

Realizzato con

  • Google Speech-To-Text (STT)

Team

Di

AutoFlow

Da

Thailandia