AutoFlow

Ułatwia sterowanie komputerem za pomocą języka naturalnego.

Działanie

AutoFlow to asystent głosowy ułatwiający korzystanie z komputera i nawigację osobom z niepełnosprawnością fizyczną. Do tego celu wykorzystuje Gemini jako potężnego agenta obsługującego język naturalny.

Gemini pełni rolę mózgu 3 agentów.
### Agent planowania
Agent planowania odpowiada za tworzenie planu na podstawie elementu interfejsu użytkownika i zrzutu ekranu. Elementy interfejsu użytkownika są pobierane z interfejsu API Win32 UIAutomation, a zrzut ekranu jest pobierany z interfejsu API użytkownika Win32. Następnie agent poprosi Gemini o utworzenie planu na podstawie tych danych.
Ten agent ma tylko funkcję uruchamiania wykonania planu i przesyłanie do systemu planowania dźwięku.

### Identyfikator agenta
Identyfikator agenta odpowiada za identyfikację elementów interfejsu, z którymi użytkownik chce wchodzić w interakcje, np. przycisków lub linków. Ten agent będzie używać Gemini do identyfikowania elementów, z którymi użytkownik chce wchodzić w interakcje.

### Agent nawigacji
Agent nawigacji odpowiada za wykonywanie zdarzeń myszy i klawiatury w celu interakcji z ekranem. Używa on Gemini do konwertowania języka naturalnego, np. „kliknięcie lewym przyciskiem myszy”, na działanie myszy i klawiatury.

Utworzone za pomocą

  • Google Speech To Text (STT)

Zespół

Autor:

AutoFlow

Od

Tajlandia