Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

口述影像產生器

只要幾分鐘，就能為 YouTube 影片建立描述性音訊軌。

用途

口述影像產生器應用程式是一項工具，可在幾分鐘內為 YouTube 短片製作口述影像音軌。應用程式收到 YouTube 連結後，就會擷取影片、標題和說明。接著，系統會開始將影片分割成較小的片段。這些片段和 YouTube 資料會先用於使用 Gemini 建立「內容檔案」，這會做為第一輪偵測一般詳細資料並識別任何字元的動作。接著，系統會使用每個片段製作「音量檔案」，用於測量每個間隔的音量，以及「逐字稿」(使用 Gemini)，列出影片中的對話內容，並附上時間戳記。接著，系統會再次將所有資訊提供給 Gemini，以建立含有時間戳記的觀察「劇本」。接著，這些指令碼會透過 Google Cloud 的文字轉語音功能處理，產生的音訊會重新拼接，並向使用者顯示最終結果。

採用

網頁/Chrome
Google Cloud：Text-to-Speech

團隊

變更者

Ryan Baumgart

寄件者

加拿大