MERLIN
MERLIN:根据您的意图量身定制的对话式视频搜索
作用
MERLIN 是一款创新的视频搜索平台,可彻底改变视频内容的发现和访问方式。通过巧妙地结合 Gemini Flash 和 Vertex 多模态嵌入技术,MERLIN 可提供无缝且直观的视频搜索体验,精准地根据您的意图进行量身定制。
MERLIN 的核心是集成了大型语言模型和尖端多模态嵌入。当您提交初始文本查询时,我们的后端会提取查询嵌入,并针对预计算的视频嵌入执行向量搜索。不过,如果结果不太准确,您可以与 MERLIN 进行自然对话,MERLIN 由 Gemini Flash 提供支持。
在您与 MERLIN 对话时,MERLIN 会利用 Vertex 从对话中提取多模态嵌入,从而捕获您需求的细微情境。这些特征会与初始查询嵌入进行插值,然后对视频数据库执行新的向量搜索。
在此过程中,向量嵌入和元数据会无缝存储在 Firestore 中,而实际视频和缩略图则位于 Firebase 中,从而确保流畅且响应迅速的体验。
通过结合使用 Gemini Flash 的对话式 AI 和 Vertex 的多模态功能,MERLIN 能够比以往更加准确地理解您的视频搜索意图,并显示最相关、最准确的结果。
此项目源自我们的论文“MERLIN:通过基于 LLM 的迭代导航实现多模态嵌入优化,以实现文本-视频检索-重新排名流水线”。
可采用以下设备打造
- Web/Chrome
- Firebase
- Python
团队
更新者
MERLIN:您的智能视频搜索助手
发件人
韩国