LangFlip

แปลและลิปซิงค์วิดีโอเป็นภาษาใดก็ได้

การทำงาน

Langflip อาศัย Gemini Multimodal API เป็นอย่างมาก โดยจะส่งวิดีโอต้นฉบับไปยัง Gemini และขอให้ Gemini ทำสิ่งต่อไปนี้
1. สร้างคำบรรยายแทนเสียงสำหรับวิดีโอ หนึ่งในความซับซ้อนหลักของการแปลวิดีโอคือการคงจังหวะของวิดีโอต้นฉบับไว้ ตัวอย่างเช่น หากต้องการแปลวิดีโอภาษาอังกฤษเป็นภาษาเยอรมัน วิดีโอที่แปลแล้วมีแนวโน้มที่จะยาวกว่าวิดีโอต้นฉบับและมีคำมากกว่า Gemini สามารถตรวจจับได้เมื่อผู้พูดหยุดพักและจัดกลุ่มคำบรรยายไว้จนกว่าจะหยุดพัก
2. สร้างคำแปลอีกครั้ง เราต้องการคงจังหวะของวิดีโอต้นฉบับไว้ Google แปลภาษาจะแปลประโยคต้นฉบับตามตัวอักษร อย่างไรก็ตาม เราต้องการให้คำแปลมีความยาวใกล้เคียงกับวิดีโอต้นฉบับ Gemini สามารถสร้างคำแปลที่มีจำนวนอักขระใกล้เคียงกับประโยคต้นฉบับที่แปล
3. ตรวจหาเฟรมที่ต้องใส่เสียงพูดตามปาก เราต้องการส่งเฉพาะเฟรมที่มองเห็นผู้พูดได้อย่างชัดเจนและกำลังพูดกับโมเดล AI ใส่เสียงพูดตามปาก หากเราส่งเฟรมที่ไม่มีใบหน้าที่มองเห็นได้ไปยัง AI โปรแกรมอาจขัดข้องและดำเนินการซิงค์ริมฝีปากไม่สำเร็จ Gemini ช่วยให้คุณส่งวิดีโอและรับการประทับเวลาทั้งหมดที่ผู้พูดปรากฏในวิดีโอได้

สร้างขึ้นด้วย

  • Flutter
  • Firebase

ทีม

โดย

Rémy Menard

จาก

ฝรั่งเศส