AutoFlow
Ułatwianie sterowania komputerem za pomocą języka naturalnego.
Działanie
AutoFlow to głosowy asystent ułatwiający korzystanie z komputera i poruszanie się po nim osobom z niepełnosprawnością fizyczną. Do tego celu wykorzystuje Gemini jako zaawansowanego agenta obsługującego język naturalny.
Gemini pełni rolę mózgu 3 asystentów.
### Agent planowania
Agent planowania odpowiada za tworzenie planu na podstawie elementu interfejsu użytkownika i zrzutu ekranu. Elementy interfejsu użytkownika są pobierane z interfejsu API Win32 UIAutomation, a zrzuty ekranu są pobierane z interfejsu API użytkownika Win32. Następnie agent poprosi Gemini o utworzenie planu na podstawie tych danych.
Ten agent ma tylko funkcję uruchamiania wykonania planu i przesyła je do systemu planowania dźwięku.
### Identyfikator agenta
Identyfikator agenta odpowiada za identyfikację elementów interfejsu, z którymi użytkownik chce wchodzić w interakcje, np. przycisków lub linków. Ten agent będzie używać Gemini do identyfikowania elementów, z którymi użytkownik chce wchodzić w interakcje.
### Agent nawigacji
Agent nawigacji odpowiada za wykonywanie zdarzeń myszy i klawiatury w celu interakcji z ekranem. Używa on Gemini do konwertowania języka naturalnego, np. „kliknięcie lewym przyciskiem myszy”, na działanie myszy i klawiatury.
Wytworzono za pomocą
- Google Speech To Text (STT)
Zespół
Autor:
AutoFlow
Z
Tajlandia