用途
我已建構應用程式,協助視障人士在周遭環境中導航,應用程式有 3 種主要模式:「導航模式」可引導使用者瞭解周遭環境、「助理模式」可協助使用者詢問周遭環境的任何特定事物,最後是「閱讀模式」,可協助使用者閱讀書籍或任何標誌牌。
Gemini AI API 已用於專案中的三個檔案,每個檔案都會分配給上述每個模式。
因此,使用者手機的攝影機會擷取即時影格/圖片,然後傳送至 Gemini 輸入方塊,Gemini 會在訓練每個模型後,將提示做為輸出內容,然後輸出提示會顯示在疊加層上,再透過 TTS (文字轉語音) 技術,讓視障人士聽到語音,輕鬆導航。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],[],[],[],null,[]]