AutoFlow

自然言語による簡単なコンピュータ操作を実現します。

機能

AutoFlow は、Gemini を強力な自然言語駆動型エージェントとして統合することで、身体に障がいのあるユーザーのパソコンの使用と操作を簡素化するように設計された音声ユーザー補助アシスタントです。

Gemini は、3 つのエージェントの頭脳として機能します。
### プランニング エージェント
プランニング エージェントは、UI 要素とスクリーンショットからプランを作成する役割を担います。UI 要素は Win32 UIAutomation API から抽出され、スクリーンショットは Win32 User API から取得されます。これらのデータからプランを作成するよう Gemini に依頼します。
このエージェントは、プランの実行を開始する機能のみを持ち、リング プランニング システムに転送します。

### 識別エージェント
識別エージェントは、ユーザーが操作する UI 要素(ボタンやリンクなど)を特定します。このエージェントは Gemini を使用して、ユーザーが操作する要素を特定します。

### ナビゲーション エージェント
ナビゲーション エージェントは、マウスとキーボードのイベントを実行して画面を操作します。このエージェントは Gemini を使用して、「左クリック」などの自然言語をマウスとキーボードの実行に変換します。

構成

  • Google 音声文字変換(STT)

チーム

By

AutoFlow

差出人

タイ