LangFlip
動画を翻訳して、任意の言語でリップシンクできます。
機能
Langflip は Gemini Multimodal API に大きく依存しています。元の動画が Gemini に送信され、Gemini に次のように依頼します。
1. 動画の字幕を生成します。動画の翻訳の難しさの一つは、元の動画のリズムを維持することです。たとえば、英語の動画をドイツ語に翻訳する場合、翻訳された動画は元の動画よりも多くの単語が含まれ、長くなる可能性が高いです。Gemini では、スピーカーが休憩を取ったタイミングを検出し、休憩まで字幕をグループ化できます。
2. 翻訳を生成します。元の動画のリズムを維持する必要があります。Google 翻訳では、元の文の直訳が提供されます。ただし、翻訳は元の動画とほぼ同じ長さにする必要があります。Gemini では、翻訳された元の文とほぼ同じ文字数の翻訳を生成できます。
3. リップシンクが必要なフレームを検出します。送信するのは、話し手がはっきりと映っていて、リップシンク AI モデルに話しかけられているフレームのみを送信します。顔が写っていないフレームを AI に送信すると、AI がクラッシュし、リップシンク プロセスが失敗する可能性があります。Gemini では、動画を送信し、動画内で話し手が映っているすべてのタイムスタンプを受け取ることができます。
構成
- Flutter
- Firebase
チーム
By
Rémy Menard
差出人
フランス