Langflip อาศัย Gemini Multimodal API เป็นอย่างมาก โดยจะส่งวิดีโอต้นฉบับไปยัง Gemini และขอให้ Gemini ทำสิ่งต่อไปนี้ 1. สร้างคำบรรยายแทนเสียงสำหรับวิดีโอ หนึ่งในความซับซ้อนหลักของการแปลวิดีโอคือการคงจังหวะของวิดีโอต้นฉบับไว้ ตัวอย่างเช่น หากต้องการแปลวิดีโอภาษาอังกฤษเป็นภาษาเยอรมัน วิดีโอที่แปลแล้วมีแนวโน้มที่จะยาวกว่าวิดีโอต้นฉบับและมีคำมากกว่า Gemini สามารถตรวจจับได้เมื่อผู้พูดหยุดพักและจัดกลุ่มคำบรรยายไว้จนกว่าจะหยุดพัก 2. สร้างคำแปลอีกครั้ง เราต้องการคงจังหวะของวิดีโอต้นฉบับไว้ Google แปลภาษาจะแปลประโยคต้นฉบับตามตัวอักษร อย่างไรก็ตาม เราต้องการให้คำแปลมีความยาวใกล้เคียงกับวิดีโอต้นฉบับ Gemini สามารถสร้างคำแปลที่มีจำนวนอักขระใกล้เคียงกับประโยคต้นฉบับที่แปล 3. ตรวจหาเฟรมที่ต้องใส่เสียงพูดตามปาก เราต้องการส่งเฉพาะเฟรมที่มองเห็นผู้พูดได้อย่างชัดเจนและกำลังพูดกับโมเดล AI ใส่เสียงพูดตามปาก หากเราส่งเฟรมที่ไม่มีใบหน้าที่มองเห็นได้ไปยัง AI โปรแกรมอาจขัดข้องและดำเนินการซิงค์ริมฝีปากไม่สำเร็จ Gemini ช่วยให้คุณส่งวิดีโอและรับการประทับเวลาทั้งหมดที่ผู้พูดปรากฏในวิดีโอได้
สร้างขึ้นด้วย
Flutter
Firebase
ทีม
โดย
Rémy Menard
จาก
ฝรั่งเศส
[[["เข้าใจง่าย","easyToUnderstand","thumb-up"],["แก้ปัญหาของฉันได้","solvedMyProblem","thumb-up"],["อื่นๆ","otherUp","thumb-up"]],[["ไม่มีข้อมูลที่ฉันต้องการ","missingTheInformationINeed","thumb-down"],["ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป","tooComplicatedTooManySteps","thumb-down"],["ล้าสมัย","outOfDate","thumb-down"],["ปัญหาเกี่ยวกับการแปล","translationIssue","thumb-down"],["ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด","samplesCodeIssue","thumb-down"],["อื่นๆ","otherDown","thumb-down"]],[],[],[],null,["# LangFlip\n\n[More Apps](/competition/vote) \n\nLangFlip\n========\n\nTranslate \\& Lip-sync your videos into any language. \nVote \nVoted!\nWhat it does\n\nLangflip relies heavily on the Gemini Multimodal API. It will send the original video to Gemini and ask Gemini to : \n1. Generate captions for the videos, one of the main complexities of translating videos is maintaining the rhythm of the original video. For example, if we want to translate an English video into German, it is very likely that the translation will have more words and will be longer than the original video. Gemini gives the ability to detect when the speaker takes a break and group the caption until a break. \n2. Generate the translations, again, we want to maintain the rhythm of the original videos. Google Translate will provide a literal translation of the original sentences. However, we want translations that are more or less the same length as the original video. Gemini gives the ability to generate translations with more or less the same number of characters than the original sentence translated. \n3. Detect which frames need to be lip-synced, we want to send only the frames where the speaker is clearly visible and talking to the lip-syncing AI model. If we send frames with no visible face to the AI, it might crash and fail the lip-syncing process. Gemini provides the ability to send the video and receive all the timestamps where the speaker appears in the video. \nBuilt with\n\n- Flutter\n- Firebase \nTeam \nBy\n\nRémy Menard \nFrom\n\nFrance \n[](/competition/vote)"]]