AutoFlow

Mühelose Computersteuerung durch natürliche Sprache.

Funktion

AutoFlow ist ein Sprachassistent für die Barrierefreiheit, der die Computernutzung und Navigation für Nutzer mit körperlichen Behinderungen vereinfacht, indem Gemini als leistungsstarker, natürlicher Sprachagent eingebunden wird.

Gemini ist das Gehirn unserer drei Agenten.
### Planungsagent
Der Planungsagent ist für die Erstellung eines Plans aus UI-Elementen und Screenshots verantwortlich. UI-Elemente werden aus der Win32 UIAutomation API extrahiert und der Screenshot wird aus der Win32 User API übernommen. Der Agent bittet Gemini, aus diesen Daten einen Plan zu erstellen.
Dieser Agent hat nur die Funktion, die Planausführung zu starten, und leitet die Anfrage an das Ringplanungssystem weiter.

### Identify agent
Der Identify-Agent ist für die Identifizierung von UI-Elementen verantwortlich, mit denen Nutzer interagieren möchten, z. B. Schaltflächen oder Links. Dieser Agent verwendet Gemini, um das Element zu identifizieren, mit dem Nutzer interagieren möchten.

### Navigations-Agent
Der Navigations-Agent ist für die Ausführung von Maus- und Tastaturereignissen zur Interaktion mit dem Bildschirm verantwortlich. Dieser Agent verwendet Gemini, um natürliche Sprache wie „Linksklick“ in Maus- und Tastaturereignisse umzuwandeln.

Basis

  • Google Speech To Text (STT)

Team

Von

AutoFlow

Von

Thailand