盲人导航 | Gemini API Developer Competition

此页面由 Cloud Translation API 翻译。

看穿我

作用

我开发了一款应用，可帮助视障人士在周围环境中导航，该应用具有 3 种主要模式：“导航模式”可引导用户了解其环境、“助理模式”可帮助用户询问周围环境的任何具体信息，最后是“阅读模式”，可帮助用户阅读书籍或任何标志牌等内容。
Gemini AI API 已用于项目中的三个文件，每个文件都分配给上述每种模式。
因此，用户手机的摄像头会捕获实时帧/图片，然后将其发送到 Gemini 输入框，然后 Gemini 会在训练每个模型后将提示作为输出创建，然后输出提示会显示在叠加层上，然后借助 TTS（文本转语音）功能，盲人可以听到该语音并轻松导航。

可采用以下设备打造

Android

团队

更新者

Ahad 或盲目导航栏

发件人

巴基斯坦