AutoFlow

Ułatwianie sterowania komputerem za pomocą języka naturalnego.

Działanie

AutoFlow to głosowy asystent ułatwiający korzystanie z komputera i poruszanie się po nim osobom z niepełnosprawnością fizyczną. Do tego celu wykorzystuje Gemini jako zaawansowanego agenta obsługującego język naturalny.

Gemini pełni rolę mózgu 3 asystentów.
### Agent planowania
Agent planowania odpowiada za tworzenie planu na podstawie elementu interfejsu użytkownika i zrzutu ekranu. Elementy interfejsu użytkownika są pobierane z interfejsu API Win32 UIAutomation, a zrzuty ekranu są pobierane z interfejsu API użytkownika Win32. Następnie agent poprosi Gemini o utworzenie planu na podstawie tych danych.
Ten agent ma tylko funkcję uruchamiania wykonania planu i przesyła je do systemu planowania dźwięku.

### Identyfikator agenta
Identyfikator agenta odpowiada za identyfikację elementów interfejsu, z którymi użytkownik chce wchodzić w interakcje, np. przycisków lub linków. Ten agent będzie używać Gemini do identyfikowania elementów, z którymi użytkownik chce wchodzić w interakcje.

### Agent nawigacji
Agent nawigacji odpowiada za wykonywanie zdarzeń myszy i klawiatury w celu interakcji z ekranem. Używa on Gemini do konwertowania języka naturalnego, np. „kliknięcie lewym przyciskiem myszy”, na działanie myszy i klawiatury.

Wytworzono za pomocą

  • Google Speech To Text (STT)

Zespół

Autor:

AutoFlow

Z

Tajlandia