MERLIN
MERLIN: recherche vidéo conversationnelle adaptée à votre intention
Description
MERLIN est une plate-forme de recherche vidéo innovante qui révolutionne la découverte et l'accès aux contenus vidéo. En combinant intelligemment les techniques Gemini Flash et d'embedding multimodal Vertex, MERLIN offre une expérience de recherche de vidéos fluide et intuitive, adaptée précisément à votre intention.
MERLIN intègre des grands modèles de langage et des représentations vectorielles continues multimodales de pointe. Lorsque vous envoyez une requête textuelle initiale, notre backend extrait l'embedding de la requête et effectue une recherche vectorielle sur des embeddings vidéo précalculés. Toutefois, si les résultats ne sont pas tout à fait à la hauteur, vous pouvez engager une conversation naturelle avec MERLIN, optimisé par Gemini Flash.
Pendant la conversation, MERLIN s'appuie sur Vertex pour extraire des représentations vectorielles continues multimodales du dialogue, capturant ainsi le contexte nuancé de vos besoins. Ils sont interpolés avec l'embedding de requête initial, et une nouvelle recherche vectorielle est effectuée dans la base de données vidéo.
Tout au long de ce processus, les embeddings vectoriels et les métadonnées sont stockés de manière transparente dans Firestore, tandis que les vidéos et les miniatures réelles se trouvent dans Firebase, ce qui garantit une expérience fluide et réactive.
En exploitant la puissance combinée de l'IA conversationnelle de Gemini Flash et des fonctionnalités multimodales de Vertex, MERLIN comprend vraiment votre intention de recherche vidéo comme jamais auparavant, et affiche les résultats les plus pertinents et les plus précis.
Ce projet est issu de notre travail MERLIN: Multimodal Embedding Refinement via LLM-based Iteration Navigation for Text-Video Retrieval-Rerank Pipeline.
Conçu avec
- Web/Chrome
- Firebase
- Python
Équipe
Par
MERLIN: votre assistant de recherche vidéo intelligente
De
Corée du Sud