LangFlip

Traduire et synchroniser vos vidéos avec les paroles dans n'importe quelle langue

Description

Langflip s'appuie fortement sur l'API multimodale Gemini. Il envoie la vidéo d'origine à Gemini et lui demande :
1. Générez des sous-titres pour les vidéos. L'une des principales difficultés de la traduction de vidéos consiste à maintenir le rythme de la vidéo d'origine. Par exemple, si nous voulons traduire une vidéo en anglais en allemand, il est très probable que la traduction comporte plus de mots et soit plus longue que la vidéo d'origine. Gemini permet de détecter quand l'orateur fait une pause et de regrouper les sous-titres jusqu'à la prochaine pause.
2. Générez les traductions. Encore une fois, nous souhaitons conserver le rythme des vidéos d'origine. Google Traduction fournit une traduction littérale des phrases d'origine. Toutefois, nous souhaitons que les traductions soient plus ou moins de la même durée que la vidéo d'origine. Gemini permet de générer des traductions avec plus ou moins le même nombre de caractères que la phrase d'origine.
3. Détecter les images qui doivent être synchronisées avec la parole : nous ne voulons envoyer que les images où le locuteur est clairement visible et parle au modèle d'IA de synchronisation labiale. Si nous envoyons à l'IA des images sans visage visible, elle risque de planter et le processus de synchronisation labiale échouera. Gemini permet d'envoyer la vidéo et de recevoir tous les codes temporels où l'intervenant apparaît dans la vidéo.

Conçu avec

  • Flutter
  • Firebase

Équipe

Par

Rémy Menard

De

France