অন্ধ সঙ্গী

অন্ধ ব্যবহারকারীদের জন্য সহায়ক ভয়েস প্রযুক্তি

এটা কি করে

অ্যাপ্লিকেশনটি ব্যবহারকারীর ভয়েস কমান্ডের মাধ্যমে সাউন্ড সিগন্যাল গ্রহণ করে এবং এই ভয়েস কমান্ডগুলিকে অ্যাকশনে রূপান্তর করতে Google Gemini API ব্যবহার করে সেগুলি বিশ্লেষণ করে৷ এই কমান্ড পরিবর্তিত হতে পারে. এগুলি একটি নির্দিষ্ট অ্যাপ্লিকেশন খুলতে এবং ইন্টারনেটে একটি নির্দিষ্ট ওয়েবসাইট ব্রাউজ করার জন্য কমান্ড হতে পারে। আমি নিশ্চিত করি যে অ্যাপ্লিকেশনটি এই সমস্ত জটিল কাজগুলি দক্ষতার সাথে পরিচালনা করতে পারে৷ স্পেসিফিকেশনে চলে যাওয়া, ভয়েস ক্যাপচার করতে এবং এটিকে টেক্সটে রূপান্তর করার জন্য উন্নত ভয়েস রিকগনিশন প্রযুক্তির ইন্টিগ্রেশনের মাধ্যমে এটি অর্জন করা হয় তারপরে টেক্সটকে স্পিচ টেকনোলজিতে সংহত করে যা বিপরীত প্রক্রিয়া করে, যা ব্যবহারকারীদের একটি কীবোর্ড ব্যবহার করার প্রয়োজন ছাড়াই আরামদায়ক অভিজ্ঞতা পেতে দেয়। Google Gemini API ব্যবহার করে, অ্যাপ্লিকেশনটি দ্রুত এবং সঠিক প্রতিক্রিয়া প্রদান করতে পারে, যা ব্যবহারকারীর অভিজ্ঞতা বাড়ায়। এখন, ধারণাটি বাস্তবায়নের জন্য আমি কোন পদক্ষেপগুলি অনুসরণ করেছি তা ব্যাখ্যা করার সময় এসেছে। ধারণাটি নিয়ে আসার পরে, আমি সম্ভবত যে সরঞ্জামগুলি ব্যবহার করব সে সম্পর্কে ভাবতে শুরু করি এবং তারপরে আমি প্রকল্পটি বাস্তবায়ন শুরু করি। এরপর এর প্রয়োগের কাজ শুরু করি। আমি যে প্রথম সমস্যাটির মুখোমুখি হয়েছিলাম তা হল পাইথন প্রোগ্রামটি ডাউনলোড করার ক্ষেত্রে একটি সমস্যা ছিল। কিছু গবেষণার পরে, আমি গুগলের মাধ্যমে এই সমস্যার সমাধান পেয়েছি। এটি সেই কোড যা আমি অনলাইনে বিভিন্ন লাইব্রেরির মাধ্যমে সংগ্রহ করেছি। প্রতিটি লাইব্রেরির কোড একটি নির্দিষ্ট ফাংশন সম্পাদন করে। আমরা টার্মিনাল খোলার পরে এবং কয়েক সেকেন্ডের জন্য অপেক্ষা করার পরে, আমরা "খুলুন" শব্দটি বলব এবং প্রোগ্রামটি খুলতে চলেছে।

দিয়ে নির্মিত

  • বক্তৃতা স্বীকৃতি
  • টেক্সট-টু-স্পিচ - TTS

দল

দ্বারা

বিশ্ব সহকারী

থেকে

মিশর