口述影像產生器
只要幾分鐘,就能為 YouTube 影片建立描述性音訊軌。
用途
口述影像產生器應用程式是一項工具,可在幾分鐘內為 YouTube 短片製作口述影像音軌。應用程式收到 YouTube 連結後,就會擷取影片、標題和說明。接著,系統會開始將影片分割成較小的片段。這些片段和 YouTube 資料會先用於使用 Gemini 建立「內容檔案」,這會做為第一輪偵測一般詳細資料並識別任何字元的動作。接著,系統會使用每個片段製作「音量檔案」,用於測量每個間隔的音量,以及「逐字稿」(使用 Gemini),列出影片中的對話內容,並附上時間戳記。接著,系統會再次將所有資訊提供給 Gemini,以建立含有時間戳記的觀察「劇本」。接著,這些指令碼會透過 Google Cloud 的文字轉語音功能處理,產生的音訊會重新拼接,並向使用者顯示最終結果。
採用
- 網頁/Chrome
- Google Cloud:Text-to-Speech
團隊
變更者
Ryan Baumgart
寄件者
加拿大