Blind Companion

दृष्टिहीन उपयोगकर्ताओं के लिए, सहायक आवाज़ की टेक्नोलॉजी

यह क्या करता है

ऐप्लिकेशन को उपयोगकर्ता के बोले गए निर्देशों से साउंड सिग्नल मिलते हैं. साथ ही, Google Gemini API का इस्तेमाल करके इन निर्देशों का विश्लेषण किया जाता है, ताकि उन्हें कार्रवाइयों में बदला जा सके. ये निर्देश अलग-अलग हो सकते हैं. ये कमांड, किसी खास ऐप्लिकेशन को खोलने और इंटरनेट पर किसी खास वेबसाइट को ब्राउज़ करने के लिए हो सकते हैं. मैं पुष्टि करता/करती हूं कि ऐप्लिकेशन इन सभी मुश्किल टास्क को आसानी से मैनेज कर सकता है. इस सुविधा को बोली पहचानने की बेहतर टेक्नोलॉजी के इंटिग्रेशन की मदद से हासिल किया जाता है. इस टेक्नोलॉजी की मदद से, बोली को कैप्चर करके उसे टेक्स्ट में बदला जाता है. इसके बाद, टेक्स्ट को बोली में बदलने वाली टेक्नोलॉजी का इस्तेमाल करके, टेक्स्ट को बोली में बदला जाता है. इस तरह, उपयोगकर्ताओं को कीबोर्ड का इस्तेमाल किए बिना, आसानी से इस सुविधा का इस्तेमाल करने का अनुभव मिलता है. Google Gemini API का इस्तेमाल करके, ऐप्लिकेशन तुरंत और सटीक जवाब दे सकता है. इससे, लोगों को बेहतर अनुभव मिलता है. अब यह बताने का समय आ गया है कि मैंने इस आइडिया को लागू करने के लिए कौनसे तरीके अपनाए. आइडिया मिलने के बाद, मैंने उन टूल के बारे में सोचना शुरू किया जिनका इस्तेमाल मुझे करना था. इसके बाद, मैंने प्रोजेक्ट को लागू करना शुरू किया. इसके बाद, मैंने इस सिद्धांत को लागू करने पर काम करना शुरू किया. मुझे पहली समस्या तब हुई, जब Python प्रोग्राम डाउनलोड करने में समस्या आ रही थी. कुछ रिसर्च करने के बाद, मुझे Google से इस समस्या का समाधान मिला. यह कोड, मैंने अलग-अलग ऑनलाइन लाइब्रेरी से इकट्ठा किया है. हर लाइब्रेरी का कोड एक खास फ़ंक्शन करता है. टर्मिनल खोलने और कुछ सेकंड इंतज़ार करने के बाद, हम "खोलें" शब्द कहेंगे और प्रोग्राम खुल जाएगा.

इनकी मदद से बनाया गया

  • बोली पहचानने की सुविधा
  • लिखाई को बोली में बदलने की सुविधा - टीटीएस

टीम

इन्होंने बदलाव किया है

World Assistants

इन्होंने भेजा

मिस्र