AutoFlow
Possibilità di controllare facilmente il computer attraverso il linguaggio naturale.
Descrizione
AutoFlow è un assistente di accessibilità vocale progettato per semplificare l'uso del computer e la navigazione degli utenti con disabilità fisiche integrando Gemini come un potente agente basato sul linguaggio naturale.
Gemini è il cervello dei nostri 3 agenti.
### Agente di pianificazione
L'agente di pianificazione
L'agente di pianificazione è responsabile della creazione di un piano a partire da elementi UI e screenshot, gli elementi UI vengono estratti dall'API UIAutomation Win32, mentre lo screenshot viene acquisito dall'API Win32 User e chiede a Gemini di creare un piano a partire da questi dati.
Questo agente ha la funzione solo di avviare l'esecuzione del piano e inoltrerà il sistema di pianificazione delle chiamate.
### Identifica l'agente
L'agente di identificazione è responsabile di identificare gli elementi UI con cui l'utente vuole interagire, come pulsante o link. Questo agente utilizzerà Gemini per identificare gli elementi con cui l'utente vuole interagire.
### Agente di navigazione
L'agente di navigazione è responsabile di eseguire l'evento del mouse e della tastiera per interagire con lo schermo. Questo agente userà Gemini per convertire un linguaggio naturale, come il "clic con il tasto sinistro", in esecuzione con mouse e tastiera.
Realizzato con
- Google Speech-To-Text (STT)
Team
Di
AutoFlow
Da
Thailandia