MERLIN

MERLIN: Konversationsbasierte Videosuche, auf Ihre Absicht zugeschnitten

Funktion

MERLIN ist eine innovative Videosuchplattform, die die Suche nach und den Zugriff auf Videoinhalte revolutioniert. Durch die geniale Kombination von Gemini Flash und Vertex-Multimodal-Embedding-Techniken bietet MERLIN eine nahtlose und intuitive Videosuche, die genau auf Ihre Absicht zugeschnitten ist.

MERLIN basiert auf Large Language Models und innovativen multimodalen Embeds. Wenn Sie eine erste Textabfrage senden, extrahiert unser Backend die Einbettung der Suchanfrage und führt eine Vektorsuche anhand vorab berechneter Videoeinbettungen durch. Wenn die Ergebnisse jedoch nicht ganz Ihren Vorstellungen entsprechen, können Sie mit MERLIN, unterstützt von Gemini Flash, ein natürliches Gespräch führen.

Während des Gesprächs nutzt MERLIN Vertex, um multimodale Einbettungen aus dem Dialog zu extrahieren und den nuancierten Kontext Ihrer Anforderungen zu erfassen. Diese werden mit der ursprünglichen Einbettung der Suchanfrage interpoliert und es wird eine neue Vektorsuche in der Videodatenbank durchgeführt.

Während dieses Prozesses werden Vektoreinbettungen und Metadaten nahtlos in Firestore gespeichert, während sich die eigentlichen Videos und Thumbnails in Firebase befinden. So wird eine reibungslose und responsive Nutzung ermöglicht.

Durch die Kombination der konversationellen KI von Gemini Flash und den multimodalen Funktionen von Vertex versteht MERLIN Ihre Videosuchabsicht wie nie zuvor und liefert die relevantesten und genauesten Ergebnisse.

Dieses Projekt basiert auf unserer Arbeit „MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline“.

Basis

  • Web/Chrome
  • Firebase
  • Python

Team

Von

MERLIN: Ihr intelligenter Videosuchassistent

Von

Südkorea