SecondEye
您的交互式可教视觉助理
作用
SecondEye 是一款可交互且可教的视觉助理。它可用于各种与视觉相关的任务和用例。它还可以被训练执行个性化的视觉任务,而无需训练或编程。所有这些都是以互动和迭代的方式完成的。
由于 Gemini 具有以下独特功能,因此目前只能使用 Gemini 构建 SecondEye:
1. 能够返回准确边界框位置的对象检测
2. 支持原生视频,能够返回带时间戳的信息
3. 大背景信息窗口
SecondEye 利用这些功能提供以下独特且全新的 AI 体验:
• 对于图片(使用第 1 项功能):
◦ 带注释的对象定义
◦ 询问图片的特定部分
◦ 增强功能:
▪ 对象搜索
▪ 如何修复或组装问题
▪ 视觉反馈请求
◦ 向模型介绍图片的带注释部分
• 对于视频(使用第 2 项功能):
◦ 增强型视频搜索体验
• 对于实时摄像头视频(使用第 3 项功能):
◦ 个性化实时视频分析
◦ 使用视频向模型传授知识
◦ 为视障人士提供实时视觉辅助,能够记住面孔、对象和地点以供日后识别。
• 对于实时屏幕共享(使用功能 3):
◦ 向模型传授工作流程
◦ IT 或编程支持。
◦ 为视障人士改善网络浏览和常规计算机体验
可采用以下设备打造
- Web/Chrome
- Firebase
- Firebase Genkit
- Google 语音转文字/文字转语音
团队
更新者
Zakaria KADDARI
发件人
摩洛哥