作用
我开发了一款应用,可帮助视障人士在周围环境中导航,该应用具有 3 种主要模式:“导航模式”可引导用户了解其环境、“助理模式”可帮助用户询问周围环境的任何具体信息,最后是“阅读模式”,可帮助用户阅读书籍或任何标志牌等内容。
Gemini AI API 已用于项目中的三个文件,每个文件都分配给上述每种模式。
因此,用户手机的摄像头会捕获实时帧/图片,然后将其发送到 Gemini 输入框,然后 Gemini 会在训练每个模型后将提示作为输出创建,然后输出提示会显示在叠加层上,然后借助 TTS(文本转语音)功能,盲人可以听到该语音并轻松导航。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["没有我需要的信息","missingTheInformationINeed","thumb-down"],["太复杂/步骤太多","tooComplicatedTooManySteps","thumb-down"],["内容需要更新","outOfDate","thumb-down"],["翻译问题","translationIssue","thumb-down"],["示例/代码问题","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],[],[],[],null,[]]