AutoFlow
Nowe możliwości sterowania komputerem za pomocą języka naturalnego.
Zastosowanie
AutoFlow to głosowy asystent ułatwień dostępu, który ułatwia korzystanie z komputera i nawigację użytkownikom z niepełnosprawnością fizyczną poprzez integrację Gemini jako zaawansowanego agenta rozpoznawania języka naturalnego.
Gemini pełni funkcję mózgu naszych 3 pracowników.
### Pracownik ds. planowania zjazdów jest odpowiedzialny za tworzenie planu na podstawie elementu interfejsu i zrzutu ekranu, elementy interfejsu są wyodrębniane z interfejsu Win32 UIAutomation API. Zrzut ekranu jest wykonywany za pomocą interfejsu Win32 User API i poprosi Gemini o utworzenie planu na podstawie tych danych.
Ten agent ma funkcję tylko do rozpoczęcia planu i przekieruje ją do systemu planowania pierścieniowego.
###
Zidentyfikuj agenta
Agent odpowiada za identyfikowanie elementu interfejsu, z którym użytkownik chce wejść w interakcję, np. przycisku lub linków. Ten agent używa Gemini do identyfikowania elementu, z którym użytkownik chce wejść w interakcję.
### Agent nawigacji
Agent nawigacji jest odpowiedzialny za wywoływanie zdarzeń myszy i klawiatury w celu interakcji z ekranem. Ten agent będzie używać Gemini do konwertowania języka naturalnego, takiego jak „kliknięcie lewym przyciskiem”, na uruchamianie myszy i użycie klawiatury.
Technologia
- Zamiana mowy na tekst Google (STT)
Zespół
Autor:
AutoFlow
Z
Tajlandia