AutoFlow

自然言語による簡単なコンピュータ制御を実現します。

機能

AutoFlow は、Gemini を強力な自然言語駆動型エージェントとして統合することで、身体に障がいのあるユーザーがパソコンの使用や操作を簡単にできるように設計された音声ユーザー補助アシスタントです。

Gemini は、3 つのエージェントの頭脳として機能します。
### プランニング エージェント
プランニング エージェントは、UI 要素とスクリーンショットからプランを作成する役割を担います。UI 要素は Win32 UIAutomation API から抽出され、スクリーンショットは Win32 User API から取得されます。これらのデータからプランを作成するよう Gemini に依頼します。
このエージェントは、プランの実行を開始する機能のみを持ち、リング プランニング システムに転送します。

### 識別エージェント
識別エージェントは、ユーザーが操作する UI 要素(ボタンやリンクなど)を特定します。このエージェントは Gemini を使用して、ユーザーが操作する要素を特定します。

### ナビゲーション エージェント
ナビゲーション エージェントは、マウスとキーボードのイベントを実行して画面を操作します。このエージェントは Gemini を使用して、「左クリック」などの自然言語をマウスとキーボードの実行に変換します。

構成

  • Google Speech To Text(STT)

チーム

By

AutoFlow

From

タイ