AutoFlow

हम आम भाषा में कंप्यूटर को आसानी से कंट्रोल करने की सुविधा देते हैं.

यह क्या करता है

AutoFlow, बोलकर इस्तेमाल करने की सुविधा देने वाला एक असिस्टेंट है. इसे शारीरिक रूप से दिव्यांग लोगों के लिए कंप्यूटर पर आसानी से इस्तेमाल करने और नेविगेट करने के लिए बनाया गया है. इसके लिए, Gemini को नैचुरल लैंग्वेज में काम करने वाले दमदार एजेंट के तौर पर शामिल किया गया है.

Gemini हमारे तीन एजेंट का काम करता है.
### प्लानिंग एजेंट
यूज़र इंटरफ़ेस (यूआई) एलिमेंट और स्क्रीनशॉट से प्लान बनाने की ज़िम्मेदारी प्लानिंग एजेंट की होती है. साथ ही, यूआई एलिमेंट को Win32 UIAutomation API से लिया जाता है और स्क्रीनशॉट Win32 User API से लिया जाता है. इसमें Gemini को इन डेटा से प्लान बनाने के लिए कहा जाता है.
इस एजेंट के पास, प्लान लागू करने के लिए सिर्फ़ फ़ंक्शन होता है और यह रिंग प्लानिंग सिस्टम पर फ़ॉरवर्ड करता है.

### एजेंट की पहचान करें
एजेंट की पहचान करने की सुविधा, उस यूज़र इंटरफ़ेस (यूआई) एलिमेंट की पहचान करती है जिससे उपयोगकर्ता इंटरैक्ट करना चाहता है. जैसे, बटन या लिंक. यह एजेंट, Gemini का इस्तेमाल करके उस एलिमेंट की पहचान करेगा जिससे उपयोगकर्ता इंटरैक्ट करना चाहता है.

### नेविगेशन एजेंट
स्क्रीन से इंटरैक्ट करने के लिए, नेविगेशन एजेंट की ज़िम्मेदारी माउस और कीबोर्ड इवेंट को एक्ज़ीक्यूट करने की है. यह एजेंट, `लेफ़्ट क्लिक` जैसी नैचुरल लैंग्वेज को माउस और कीबोर्ड एक्ज़ीक्यूट करने में बदलने के लिए Gemini का इस्तेमाल करेगा.

इसके साथ बनाया गया

  • Google स्पीच टू टेक्स्ट (एसटीटी)

टीम

इन्होंने बदलाव किया है

AutoFlow

शुरू होने का समय

थाईलैंड