MERLIN
MERLIN: pesquisa de vídeo por conversação, adaptada à sua intenção
O que faz?
A MERLIN é uma plataforma inovadora de pesquisa de vídeos que revoluciona a descoberta e o acesso a conteúdo em vídeo. Ao combinar de forma genial as técnicas de incorporação multimodal do Gemini Flash e do Vertex, o MERLIN oferece uma experiência de pesquisa de vídeo simples e intuitiva, adaptada exatamente à sua intenção.
O MERLIN integra grandes modelos de linguagem e incorporações multimodais de ponta. Quando você envia uma consulta de texto inicial, nosso back-end extrai a embedding da consulta e realiza uma pesquisa vetorial em relação a embeddings de vídeo pré-calculadas. No entanto, se os resultados não forem satisfatórios, você pode conversar naturalmente com o MERLIN, que é alimentado pelo Gemini Flash.
Durante a conversa, o MERLIN usa o Vertex para extrair incorporações multimodais do diálogo, capturando o contexto sutil das suas necessidades. Eles são interpolados com a incorporação da consulta inicial, e uma nova pesquisa vetorial é realizada no banco de dados de vídeo.
Durante todo esse processo, os embeddings de vetor e os metadados são armazenados no Firestore, enquanto os vídeos e miniaturas reais ficam no Firebase, garantindo uma experiência suave e responsiva.
Ao aproveitar o poder combinado da IA de conversação do Gemini Flash e os recursos multimodais do Vertex, o MERLIN entende melhor do que nunca a intenção da sua pesquisa de vídeo, mostrando os resultados mais relevantes e precisos.
Este projeto é derivado do nosso trabalho MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline.
Desenvolvido com
- Web/Chrome
- Firebase
- Python
Equipe
Por
MERLIN: seu companheiro inteligente de pesquisa de vídeos
De
Coreia do Sul