همسفر نابینا

فناوری صدای کمکی برای کاربران نابینا

کاری که انجام می دهد

این اپلیکیشن سیگنال های صوتی را از طریق دستورات صوتی کاربر دریافت می کند و با استفاده از Google Gemini API آن ها را تجزیه و تحلیل می کند تا این دستورات صوتی را به کنش تبدیل کند. این دستورات می توانند متفاوت باشند. آنها می توانند دستوراتی برای باز کردن یک برنامه خاص و مرور یک وب سایت خاص در اینترنت باشند. من تأیید می کنم که برنامه می تواند همه این وظایف پیچیده را به طور موثر انجام دهد. با حرکت به سمت مشخصات، با ادغام فناوری تشخیص صدا پیشرفته برای ضبط صدا و تبدیل آن به متن و سپس ادغام فناوری متن به گفتار که فرآیند مخالف را انجام می دهد، به دست می آید که به کاربران اجازه می دهد بدون نیاز به استفاده از صفحه کلید تجربه ای راحت داشته باشند. با استفاده از Google Gemini API، برنامه می تواند پاسخ های سریع و دقیقی ارائه دهد که تجربه کاربر را افزایش می دهد. حالا وقت آن است که توضیح دهم مراحلی که برای اجرای این ایده دنبال کردم چیست. پس از طرح این ایده، شروع به فکر کردن به ابزارهایی کردم که احتمالاً از آنها استفاده خواهم کرد و سپس شروع به اجرای پروژه کردم. بعد از آن شروع به کار روی کاربرد آن کردم. اولین مشکلی که با آن مواجه شدم این بود که دانلود برنامه پایتون مشکل داشت. بعد از کمی تحقیق راه حلی برای این مشکل از طریق گوگل پیدا کردم. این کدی است که من از طریق کتابخانه های مختلف آنلاین جمع آوری کرده ام. کد هر کتابخانه عملکرد خاصی را انجام می دهد. بعد از اینکه ترمینال را باز کردیم و چند ثانیه صبر کردیم، کلمه Open را می گوییم و برنامه باز می شود.

ساخته شده با

  • تشخیص گفتار
  • تبدیل متن به گفتار - TTS

تیم

توسط

دستیاران جهان

از

مصر