AutoFlow

Nowe możliwości sterowania komputerem za pomocą języka naturalnego.

Zastosowanie

AutoFlow to głosowy asystent ułatwień dostępu, który ułatwia korzystanie z komputera i nawigację użytkownikom z niepełnosprawnością fizyczną poprzez integrację Gemini jako zaawansowanego agenta rozpoznawania języka naturalnego.

Gemini pełni funkcję mózgu naszych 3 pracowników.
### Pracownik ds. planowania zjazdów jest odpowiedzialny za tworzenie planu na podstawie elementu interfejsu i zrzutu ekranu, elementy interfejsu są wyodrębniane z interfejsu Win32 UIAutomation API. Zrzut ekranu jest wykonywany za pomocą interfejsu Win32 User API i poprosi Gemini o utworzenie planu na podstawie tych danych.
Ten agent ma funkcję tylko do rozpoczęcia planu i przekieruje ją do systemu planowania pierścieniowego.

###
Zidentyfikuj agenta
Agent odpowiada za identyfikowanie elementu interfejsu, z którym użytkownik chce wejść w interakcję, np. przycisku lub linków. Ten agent używa Gemini do identyfikowania elementu, z którym użytkownik chce wejść w interakcję.

### Agent nawigacji
Agent nawigacji jest odpowiedzialny za wywoływanie zdarzeń myszy i klawiatury w celu interakcji z ekranem. Ten agent będzie używać Gemini do konwertowania języka naturalnego, takiego jak „kliknięcie lewym przyciskiem”, na uruchamianie myszy i użycie klawiatury.

Technologia

  • Zamiana mowy na tekst Google (STT)

Zespół

Autor:

AutoFlow

Z

Tajlandia