AutoFlow
自然言語による簡単なコンピュータ制御を実現します。
機能
AutoFlow は、Gemini を強力な自然言語駆動型エージェントとして統合することで、身体に障がいのあるユーザーがパソコンの使用や操作を簡単にできるように設計された音声ユーザー補助アシスタントです。
Gemini は、3 つのエージェントの頭脳として機能します。
### プランニング エージェント
プランニング エージェントは、UI 要素とスクリーンショットからプランを作成する役割を担います。UI 要素は Win32 UIAutomation API から抽出され、スクリーンショットは Win32 User API から取得されます。これらのデータからプランを作成するよう Gemini に依頼します。
このエージェントは、プランの実行を開始する機能のみを持ち、リング プランニング システムに転送します。
### 識別エージェント
識別エージェントは、ユーザーが操作する UI 要素(ボタンやリンクなど)を特定します。このエージェントは Gemini を使用して、ユーザーが操作する要素を特定します。
### ナビゲーション エージェント
ナビゲーション エージェントは、マウスとキーボードのイベントを実行して画面を操作します。このエージェントは Gemini を使用して、「左クリック」などの自然言語をマウスとキーボードの実行に変換します。
構成
- Google Speech To Text(STT)
チーム
By
AutoFlow
From
タイ