AutoFlow
自然言語を使用して簡単にコンピュータ制御できるようにします。
機能
AutoFlow は、Gemini を自然言語主導の強力なエージェントとして統合することで、身体障がいのあるユーザーのパソコンの使用やナビゲーションを簡素化するように設計された音声ユーザー補助アシスタントです。
Gemini は、3 つのエージェントの頭脳として機能します。
###プランニング エージェント
プランニング エージェントは UI 要素とスクリーンショットからプランを作成し、UI 要素は Win32 UIAutomation API から抽出し、スクリーンショットは Win32 User API から撮影して、それらのデータからプランを作成するよう Gemini に要求します。
このエージェントはプランの実行を開始する機能のみを持ち、リング プランニング システムに転送します。
###エージェントの特定
エージェントは、ユーザーが操作したい UI 要素(ボタンやリンクなど)を特定する役割を担います。このエージェントは Gemini を使用して、ユーザーが操作したい要素を特定します。
###ナビゲーション エージェント
ナビゲーション エージェントは、マウスとキーボードのイベントを実行して画面とやり取りします。このエージェントは Gemini を使用して、「左クリック」などの自然言語をマウスとキーボードでの実行に変換します。
構成
- Google Speech-to-Text(STT)
チーム
By
AutoFlow
From
タイ