MERLIN

MERLIN: ユーザーの意図に合わせてカスタマイズされた会話型動画検索

機能

MERLIN は、動画コンテンツの発見とアクセスを革新する革新的な動画検索プラットフォームです。MERLIN は、Gemini Flash と Vertex のマルチモーダル エンベディング手法を巧みに組み合わせることで、ユーザーの意図に正確に沿ったシームレスで直感的な動画検索エクスペリエンスを実現します。

MERLIN の中核には、大規模言語モデルと最先端のマルチモーダル エンベディングが統合されています。最初のテキスト クエリを送信すると、バックエンドでクエリ エンベディングが抽出され、事前計算された動画エンベディングに対してベクトル検索が実行されます。ただし、結果が期待どおりでない場合は、Gemini Flash を搭載した MERLIN と自然な会話を行うことができます。

会話中、MERLIN は Vertex を活用して会話からマルチモーダル エンベディングを抽出し、ニーズに関する微妙なコンテキストをキャプチャします。これらのベクトルは初期クエリ エンベディングと補間され、動画データベースに対して新しいベクトル検索が実行されます。

このプロセス全体で、ベクトル エンベディングとメタデータは Firestore にシームレスに保存され、実際の動画とサムネイルは Firebase に保存されるため、スムーズでレスポンシブなエクスペリエンスが実現します。

MERLIN は、Gemini Flash の会話 AI と Vertex のマルチモーダル機能を組み合わせることで、これまでにない方法で動画検索の意図を正確に理解し、最も関連性の高い正確な結果を表示します。

このプロジェクトは、Google の研究 MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline から派生したものです。

構成

  • ウェブ/Chrome
  • Firebase
  • Python

チーム

By

MERLIN: インテリジェントな動画検索パートナー

差出人

韓国