LangFlip

Переводите и синхронизируйте губы с вашими видео на любой язык.

Что он делает

Langflip в значительной степени опирается на Gemini Multimodal API. Он отправит исходное видео в Gemini и попросит Gemini:
1. Сгенерируйте субтитры для видео, одна из главных сложностей перевода видео — сохранение ритма исходного видео. Например, если мы хотим перевести английское видео на немецкий, то весьма вероятно, что перевод будет содержать больше слов и будет длиннее исходного видео. Gemini дает возможность определять, когда говорящий делает паузу, и группировать субтитры до паузы.
2. Сгенерируйте переводы, опять же, мы хотим сохранить ритм исходных видео. Google Translate предоставит буквальный перевод исходных предложений. Однако мы хотим, чтобы переводы были примерно той же длины, что и исходное видео. Gemini дает возможность генерировать переводы с примерно тем же количеством символов, что и исходное переведенное предложение.
3. Определите, какие кадры необходимо синхронизировать с губами. Мы хотим отправлять только те кадры, где говорящий четко виден и разговаривает, в модель искусственного интеллекта, синхронизирующего губы. Если мы отправим в искусственный интеллект кадры, на которых не видно лица, он может выйти из строя и не выполнить процесс синхронизации губ. Gemini предоставляет возможность отправлять видео и получать все временные метки, где говорящий появляется в видео.

Построено с

  • Трепетание
  • Firebase

Команда

К

Реми Менар

От

Франция