MERLIN

MERLIN: pesquisa de vídeo por conversação, adaptada à sua intenção

O que faz?

A MERLIN é uma plataforma inovadora de pesquisa de vídeos que revoluciona a descoberta e o acesso a conteúdo em vídeo. Ao combinar de forma genial as técnicas de incorporação multimodal do Gemini Flash e do Vertex, o MERLIN oferece uma experiência de pesquisa de vídeo simples e intuitiva, adaptada exatamente à sua intenção.

O MERLIN integra grandes modelos de linguagem e incorporações multimodais de ponta. Quando você envia uma consulta de texto inicial, nosso back-end extrai a embedding da consulta e realiza uma pesquisa vetorial em relação a embeddings de vídeo pré-calculadas. No entanto, se os resultados não forem satisfatórios, você pode conversar naturalmente com o MERLIN, que é alimentado pelo Gemini Flash.

Durante a conversa, o MERLIN usa o Vertex para extrair incorporações multimodais do diálogo, capturando o contexto sutil das suas necessidades. Eles são interpolados com a incorporação da consulta inicial, e uma nova pesquisa vetorial é realizada no banco de dados de vídeo.

Durante todo esse processo, os embeddings de vetor e os metadados são armazenados no Firestore, enquanto os vídeos e miniaturas reais ficam no Firebase, garantindo uma experiência suave e responsiva.

Ao aproveitar o poder combinado da IA de conversação do Gemini Flash e os recursos multimodais do Vertex, o MERLIN entende melhor do que nunca a intenção da sua pesquisa de vídeo, mostrando os resultados mais relevantes e precisos.

Este projeto é derivado do nosso trabalho MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline.

Desenvolvido com

  • Web/Chrome
  • Firebase
  • Python

Equipe

Por

MERLIN: seu companheiro inteligente de pesquisa de vídeos

De

Coreia do Sul