LangFlip

Traduzir e sincronizar seus vídeos com a boca em qualquer idioma.

O que faz?

O Langflip depende muito da API Multimodal Gemini. Ele vai enviar o vídeo original para o Gemini e pedir que ele
1. Gerar legendas para os vídeos. Uma das principais complexidades da tradução de vídeos é manter o ritmo do vídeo original. Por exemplo, se quisermos traduzir um vídeo em inglês para o alemão, é muito provável que a tradução tenha mais palavras e seja mais longa do que o vídeo original. O Gemini permite detectar quando o orador faz uma pausa e agrupar a legenda até uma pausa.
2. Gerar as traduções. Novamente, queremos manter o ritmo dos vídeos originais. O Google Tradutor vai fornecer uma tradução literal das frases originais. No entanto, queremos traduções com mais ou menos a mesma duração do vídeo original. O Gemini permite gerar traduções com mais ou menos o mesmo número de caracteres que a frase original traduzida.
3. Detectar quais frames precisam ser sincronizados com os lábios. Queremos enviar apenas os frames em que o orador está claramente visível e falando para o modelo de IA de sincronização labial. Se enviarmos frames sem rostos visíveis para a IA, ela poderá falhar e o processo de sincronização labial será interrompido. O Gemini permite enviar o vídeo e receber todas as marcações de tempo em que o orador aparece no vídeo.

Desenvolvido com

  • Flutter
  • Firebase

Equipe

Por

Rémy Menard

De

França