Blind Companion
失明使用者的輔助語音技術
用途
應用程式會透過使用者的語音指令接收聲響信號,並使用 Google Gemini API 進行分析,將這些語音指令轉換為動作。這些指令可能會有所不同。這些指令可以用來開啟特定應用程式,以及瀏覽網路上的特定網站。我確認應用程式可以有效處理所有這些複雜的工作。就規格而言,這項功能是透過整合進階語音辨識技術,擷取語音並轉換為文字,然後整合文字轉語音技術,執行相反的程序,讓使用者不必使用鍵盤,也能享有舒適的體驗。應用程式可使用 Google Gemini API 提供快速且準確的回覆,進而提升使用者體驗。接下來,我會說明實作這項構想的步驟。有了想法後,我開始思考可能會用到的工具,然後開始執行專案。之後,我開始著手應用這項技術。我遇到的第一個問題是下載 Python 程式時發生問題。經過一番研究,我透過 Google 找到解決這個問題的方法。這是我透過線上不同程式庫收集到的程式碼。每個程式庫的程式碼都會執行特定函式。開啟終端機並等待幾秒後,我們會說出「Open」這個字,然後程式就會開啟。
採用
- 語音辨識
- Text-to-Speech - TTS
團隊
變更者
World Assistants
寄件者
埃及