MERLIN

MERLIN: Tìm kiếm video đàm thoại, phù hợp với ý định của bạn

Ý nghĩa

MERLIN là một nền tảng tìm kiếm video sáng tạo, mang đến cuộc cách mạng trong việc khám phá và truy cập nội dung video. Bằng cách kết hợp khéo léo các kỹ thuật nhúng đa phương thức Gemini Flash và Vertex, MERLIN mang đến trải nghiệm tìm kiếm video liền mạch và trực quan, được điều chỉnh chính xác theo ý định của bạn.

Ở cốt lõi, MERLIN tích hợp các mô hình ngôn ngữ lớn và các tính năng nhúng đa phương thức tiên tiến. Khi bạn gửi một truy vấn văn bản ban đầu, phần phụ trợ của chúng tôi sẽ trích xuất nội dung nhúng của truy vấn và thực hiện tìm kiếm vectơ dựa trên nội dung nhúng video được tính toán trước. Tuy nhiên, nếu kết quả không đạt được mục tiêu, bạn có thể trò chuyện tự nhiên với MERLIN, được cung cấp bởi Gemini Flash.

Khi bạn trò chuyện, MERLIN sẽ tận dụng Vertex để trích xuất các nội dung nhúng đa phương thức từ cuộc trò chuyện, ghi lại bối cảnh chi tiết về nhu cầu của bạn. Các vectơ này được nội suy bằng cụm từ tìm kiếm được nhúng ban đầu và một lượt tìm kiếm vectơ mới được thực hiện dựa trên cơ sở dữ liệu video.

Trong suốt quá trình này, các vectơ được nhúng và siêu dữ liệu được lưu trữ liền mạch trong Firestore, trong khi video và hình thu nhỏ thực tế nằm trong Firebase, đảm bảo trải nghiệm mượt mà và thích ứng.

Dự án này bắt nguồn từ công trình nghiên cứu của chúng tôi về MERLIN: Refinement Embedding Multimodal via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline (Tinh chỉnh tính năng nhúng đa phương thức thông qua tính năng điều hướng lặp lại dựa trên LLM cho quy trình truy xuất văn bản-video-xếp hạng lại).

Được tạo bằng

  • Web/Chrome
  • Firebase
  • Python

Nhóm

Người cập nhật

MERLIN: Trợ lý tìm kiếm video thông minh

Từ

Hàn Quốc