MERLIN

MERLIN: ricerca di video conversazionale, personalizzata in base alle tue intenzioni

Descrizione

MERLIN è una piattaforma di ricerca video innovativa che rivoluziona la scoperta e l'accesso ai contenuti video. Combinando abilmente le tecniche di embedding multimodale di Gemini Flash e Vertex, MERLIN offre un'esperienza di ricerca di video fluida e intuitiva, personalizzata in base alle tue intenzioni.

Al suo interno, MERLIN integra modelli linguistici di grandi dimensioni e incorporamenti multimodali all'avanguardia. Quando invii una query di testo iniziale, il nostro backend estrae l'embedding della query ed esegue una ricerca vettoriale rispetto agli embedding video precomputati. Tuttavia, se i risultati non sono del tutto soddisfacenti, puoi intrattenere una conversazione naturale con MERLIN, basata su Gemini Flash.

Durante la conversazione, MERLIN sfrutta Vertex per estrarre embedding multimodali dal dialogo, cogliendo il contesto sfumato delle tue esigenze. Questi vengono interpolati con l'embedding della query iniziale e viene eseguita una nuova ricerca vettoriale nel database video.

Durante questa procedura, gli embedding vettoriali e i metadati vengono archiviati senza problemi in Firestore, mentre i video e le miniature effettivi si trovano in Firebase, garantendo un'esperienza fluida e reattiva.

Sfruttando la potenza combinata dell'IA conversazionale di Gemini Flash e delle funzionalità multimodali di Vertex, MERLIN comprende davvero la tua intenzione di ricerca video come mai prima d'ora, mostrando i risultati più pertinenti e accurati.

Questo progetto deriva dal nostro lavoro MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline.

Realizzato con

  • Web/Chrome
  • Firebase
  • Python

Team

Di

MERLIN: il tuo compagno di ricerca video intelligente

Da

Corea del Sud