AutoFlow
자연어를 통해 손쉽게 컴퓨터를 제어할 수 있습니다.
기능
AutoFlow는 Gemini를 강력한 자연어 기반 에이전트로 통합하여 신체적 장애가 있는 사용자가 컴퓨터를 사용하고 탐색하는 것을 간소화하도록 설계된 음성 접근성 어시스턴트입니다.
Gemini는 Google의 3가지 에이전트의 두뇌 역할을 합니다.
### 계획 에이전트
계획 에이전트는 UI 요소와 스크린샷에서 계획을 만드는 역할을 합니다. UI 요소는 Win32 UIAutomation API에서 추출되고 스크린샷은 Win32 User API에서 가져옵니다. 그런 다음 Gemini에 이러한 데이터를 기반으로 계획을 만들도록 요청합니다.
이 에이전트는 계획 실행을 시작하는 기능만 있으며 링 계획 시스템으로 전달합니다.
### 식별 에이전트
식별 에이전트는 사용자가 상호작용하려는 UI 요소(예: 버튼 또는 링크)를 식별하는 역할을 합니다. 이 에이전트는 Gemini를 사용하여 사용자가 상호작용하려는 요소를 식별합니다.
### 탐색 에이전트
탐색 에이전트는 마우스 및 키보드 이벤트를 실행하여 화면과 상호작용하는 역할을 합니다. 이 에이전트는 Gemini를 사용하여 '왼쪽 클릭'과 같은 자연어를 마우스 및 키보드 실행으로 변환합니다.
구성용 제품
- Google Speech To Text (STT)
팀
작성자:
AutoFlow
From
태국