盲人 | Gemini API Developer Competition

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

失明使用者的輔助語音技術

用途

應用程式會透過使用者的語音指令接收聲響信號，並使用 Google Gemini API 進行分析，將這些語音指令轉換為動作。這些指令可能會有所不同。這些指令可以用來開啟特定應用程式，以及瀏覽網路上的特定網站。我確認應用程式可以有效處理所有這些複雜的工作。就規格而言，這項功能是透過整合進階語音辨識技術，擷取語音並轉換為文字，然後整合文字轉語音技術，執行相反的程序，讓使用者不必使用鍵盤，也能享有舒適的體驗。應用程式可使用 Google Gemini API 提供快速且準確的回覆，進而提升使用者體驗。接下來，我會說明實作這項構想的步驟。有了想法後，我開始思考可能會用到的工具，然後開始執行專案。之後，我開始著手應用這項技術。我遇到的第一個問題是下載 Python 程式時發生問題。經過一番研究，我透過 Google 找到解決這個問題的方法。這是我透過線上不同程式庫收集到的程式碼。每個程式庫的程式碼都會執行特定函式。開啟終端機並等待幾秒後，我們會說出「Open」這個字，然後程式就會開啟。

採用

語音辨識
Text-to-Speech - TTS

團隊

變更者

World Assistants

寄件者

埃及

Blind Companion