AutoFlow
आम भाषा का इस्तेमाल करके, कंप्यूटर को आसानी से कंट्रोल करने की सुविधा.
यह क्या करता है
AutoFlow, वॉइस असिस्टेंस की सुविधा देने वाली एक ऐसी सेवा है जिसे शारीरिक रूप से कमज़ोर लोगों के लिए डिज़ाइन किया गया है. इसकी मदद से, वे आसानी से कंप्यूटर का इस्तेमाल कर सकते हैं और नेविगेट कर सकते हैं. इसके लिए, Gemini को एक बेहतरीन और नैचुरल लैंग्वेज पर आधारित एजेंट के तौर पर इंटिग्रेट किया गया है.
Gemini, हमारे तीन एजेंट के लिए ब्रेन की तरह काम करता है.
### प्लानिंग एजेंट
प्लानिंग एजेंट, यूज़र इंटरफ़ेस (यूआई) एलिमेंट और स्क्रीनशॉट से प्लान बनाने के लिए ज़िम्मेदार होता है. यूआई एलिमेंट, Win32 UIAutomation API से निकाले जाते हैं और स्क्रीनशॉट, Win32 User API से लिया जाता है. साथ ही, यह एजेंट Gemini से इन डेटा से प्लान बनाने के लिए कहेगा.
इस एजेंट में सिर्फ़ प्लान लागू करने की सुविधा होती है. साथ ही, यह प्लानिंग सिस्टम को फ़ॉरवर्ड करेगा.
### आइडेंटिफ़ाइ एजेंट
आइडेंटिफ़ाइ एजेंट की ज़िम्मेदारी, यूज़र इंटरफ़ेस (यूआई) के उस एलिमेंट की पहचान करना है जिससे उपयोगकर्ता इंटरैक्ट करना चाहता है. जैसे, बटन या लिंक. यह एजेंट, Gemini का इस्तेमाल करके उस एलिमेंट की पहचान करेगा जिससे उपयोगकर्ता इंटरैक्ट करना चाहता है.
### नेविगेशन एजेंट
नेविगेशन एजेंट, स्क्रीन के साथ इंटरैक्ट करने के लिए माउस और कीबोर्ड इवेंट को लागू करने के लिए ज़िम्मेदार होता है. यह एजेंट, Gemini का इस्तेमाल करके सामान्य भाषा को माउस और कीबोर्ड इवेंट में बदलेगा. जैसे, `लेफ़्ट क्लिक`.
इनकी मदद से बनाया गया
- Google Speech To Text (STT)
टीम
इन्होंने बदलाव किया है
AutoFlow
इन्होंने भेजा
थाईलैंड