AutoFlow

Consente di controllare facilmente il computer tramite il linguaggio naturale.

Descrizione

AutoFlow è un assistente di accessibilità vocale progettato per semplificare l'utilizzo del computer e la navigazione degli utenti con disabilità fisiche integrando Gemini come un potente agente basato sul linguaggio naturale.

Gemini funge da cervello dei nostri tre agenti.
### Agente di pianificazione
L'agente di pianificazione è responsabile della creazione di un piano dall'elemento dell'interfaccia utente e dallo screenshot. L'elemento dell'interfaccia utente viene estratto dall'API Win32 UIAutomation e lo screenshot viene acquisito dall'API utente Win32. L'agente chiederà a Gemini di creare un piano a partire da questi dati.
Questo agente ha solo la funzione di avviare l'esecuzione del piano e lo inoltra al sistema di pianificazione dell'anello.

### Agente di identificazione
L'agente di identificazione è responsabile dell'identificazione dell'elemento dell'interfaccia utente con cui l'utente vuole interagire, ad esempio pulsanti o link. Questo agente utilizzerà Gemini per identificare l'elemento con cui l'utente vuole interagire.

### Agente di navigazione
L'agente di navigazione è responsabile dell'esecuzione di eventi del mouse e della tastiera per interagire con lo schermo. Questo agente utilizzerà Gemini per convertire il linguaggio naturale, ad esempio "clic sinistro", in esecuzione del mouse e della tastiera.

Realizzato con

  • Speech-to-Text (STT) di Google

Team

Di

AutoFlow

Da

Thailandia