LangFlip
將影片翻譯成任何語言,並進行嘴型同步。
用途
Langflip 極度仰賴 Gemini Multimodal API。系統會將原始影片傳送給 Gemini,並要求 Gemini 執行以下操作:
1. 為影片產生字幕。翻譯影片時,要維持原始影片的節奏是其中一個主要的複雜之處。舉例來說,如果我們要將英文影片翻譯成德文,翻譯內容很可能會比原始影片長,而且字數也會更多。Gemini 可偵測講者暫停說話的時間,並將字幕分組至暫停說話為止。
2. 再次產生翻譯內容,我們希望維持原始影片的節奏。Google 翻譯會提供原始句子的直譯。不過,我們希望翻譯內容的長度大致與原始影片相同。Gemini 可產生翻譯內容,字元數大致與原始句子相同。
3. 偵測需要進行嘴型同步的影格,我們只想傳送清楚可見講者並與嘴型同步 AI 模型對話的圖格。如果我們將沒有可見臉孔的影格傳送至 AI,系統可能會當機,並導致嘴型同步處理程序失敗。Gemini 可傳送影片,並接收發言者在影片中出現的所有時間戳記。
採用
- Flutter
- Firebase
團隊
變更者
Rémy Menard
寄件者
法國