Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

SecondEye

您的交互式可教视觉助理

作用

SecondEye 是一款可交互且可教的视觉助理。它可用于各种与视觉相关的任务和用例。它还可以被训练执行个性化的视觉任务，而无需训练或编程。所有这些都是以互动和迭代的方式完成的。
由于 Gemini 具有以下独特功能，因此目前只能使用 Gemini 构建 SecondEye：
1. 能够返回准确边界框位置的对象检测
2. 支持原生视频，能够返回带时间戳的信息
3. 大背景信息窗口
SecondEye 利用这些功能提供以下独特且全新的 AI 体验：
• 对于图片（使用第 1 项功能）：
◦ 带注释的对象定义
◦ 询问图片的特定部分
◦ 增强功能：
▪ 对象搜索
▪ 如何修复或组装问题
▪ 视觉反馈请求
◦ 向模型介绍图片的带注释部分
• 对于视频（使用第 2 项功能）：
◦ 增强型视频搜索体验
• 对于实时摄像头视频（使用第 3 项功能）：
◦ 个性化实时视频分析
◦ 使用视频向模型传授知识
◦ 为视障人士提供实时视觉辅助，能够记住面孔、对象和地点以供日后识别。
• 对于实时屏幕共享（使用功能 3）：
◦ 向模型传授工作流程
◦ IT 或编程支持。
◦ 为视障人士改善网络浏览和常规计算机体验

可采用以下设备打造

Web/Chrome
Firebase
Firebase Genkit
Google 语音转文字/文字转语音

团队

更新者

Zakaria KADDARI

发件人

摩洛哥