AutoFlow

เพิ่มประสิทธิภาพในการควบคุมคอมพิวเตอร์ได้อย่างง่ายดายผ่านภาษาที่เป็นธรรมชาติ

การทำงาน

AutoFlow เป็นผู้ช่วยการช่วยเหลือพิเศษแบบเสียง ซึ่งออกแบบมาเพื่อลดความซับซ้อนในการใช้คอมพิวเตอร์และการนำทางของผู้ใช้ที่มีความพิการทางร่างกาย ด้วยการผสานรวม Gemini เป็น Agent ที่ขับเคลื่อนด้วยภาษาธรรมชาติที่ทรงพลัง

Gemini จะทำหน้าที่เป็นสมองของตัวแทน 3 รายของเรา
### Agent การวางแผน
ตัวแทนการวางแผนมีหน้าที่สร้างแผนจากองค์ประกอบ UI และภาพหน้าจอ, องค์ประกอบ UI จะดึงมาจาก Win32 UIAutomation API และจะดึงภาพหน้าจอจาก Win32 User API และจะขอให้ Gemini สร้างแผนจากข้อมูลเหล่านี้
Agent นี้มีหน้าที่เพียงเริ่มดำเนินการตามแผนเท่านั้น และจะส่งต่อไปยังระบบการวางแผนเสียงเรียกเข้า

### ระบุ Agent
ระบุ Agent ที่มีหน้าที่ระบุองค์ประกอบ UI ที่ผู้ใช้ต้องการโต้ตอบ เช่น ปุ่มหรือลิงก์ โดย Agent นี้จะใช้ Gemini เพื่อระบุองค์ประกอบที่ผู้ใช้ต้องการโต้ตอบด้วย

### Agent การนำทาง
ตัวแทนการนำทางมีหน้าที่ดำเนินเหตุการณ์ด้วยเมาส์และแป้นพิมพ์เพื่อโต้ตอบกับหน้าจอ โดยตัวแทนนี้จะใช้ Gemini เพื่อแปลงภาษาที่เป็นธรรมชาติ เช่น "คลิกซ้าย" เป็นการดำเนินการกับเมาส์และแป้นพิมพ์

สร้างด้วย

  • การแปลงเสียงพูดเป็นข้อความ (STT) ของ Google

ทีม

โดย

AutoFlow

จาก

ไทย