share_log

谷歌真·AI配音神器来了!自动看懂画面、对齐音频,能为任何视频生成无数音频

谷歌真·AI配音神器來了!自動看懂畫面、對齊音頻,能爲任何視頻生成無數音頻

智東西 ·  06/18 19:08

谷歌DeepMind發佈最新AI視頻自動配音工具,AI視頻正式開啓有聲時代!編譯 |陳駿達

編輯 |程茜

智東西6月18日消息,今日凌晨,谷歌DeepMind發佈了一個名爲V2A(Video-to-Audio)的系統,能根據畫面內容或者手動輸入的提示詞直接爲視頻配音。它還可以爲任何視頻輸入生成無限數量的音軌。谷歌DeepMindV2A系統最大的特點就是無需人工輸入提示詞也可以爲視頻配音。DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素。也就是說,V2A能看懂畫面,知道畫面里正在發生什麼,應該出現什麼聲音。

▲谷歌DeepMind發佈的V2A Demo視頻當然,V2A也能夠根據提示詞生成所需的音頻。使用者可以通過輸入“正面提示詞”來引導模型輸出所需的聲音,或輸入“負面提示詞”來引導其避免出現不需要的聲音,這給了使用者更大的控制權。與其它AI音頻生成工具不同,V2A在生成音頻後無需人工對齊音頻視頻,而是可以直接自動將音頻與畫面對齊。但谷歌DeepMind也承認,這一系統目前仍然存在很大的侷限性。如果輸入的視頻質量不高,那麼輸出的音頻質量也會出現明顯的下降。他們認爲需要進一步提升系統安全性並補齊當前V2A在口型同步等方面的短板,才能正式向公衆發佈這一系統。谷歌發佈V2A沒過幾小時,語音克隆創企ElevenLabs就發佈了文字到音頻模型的API,並基於這一API做了一個Demo應用讓公衆免費使用。

▲ElevenLabs最新應用給Luma生成的視頻配音與V2A不同的是,該應用並不能直接實現畫面到音頻的轉換,而是利用了GPT-4o將視頻截圖轉換爲文字提示詞,之後再輸入文字轉在幾秒內生成多條與畫面內容匹配的音頻。這是基於該公司5月底發佈的文字到音頻模型打造的。

01.與自家Veo模型配合生成有聲視頻,但對複雜畫面理解存在缺陷

雖然目前Sora、Pika、可靈以及近期的Dream Machine和Runway Gen-3 Alpha等一系列視頻生成模型已經能輸出逼真的視頻畫面,但它們生成的視頻都是沒有聲音的。AI工具也可以直接生成質量尚可的音頻。AI創企Stability AI發佈的Stable Audio Open模型可以輸出長達47秒的樂器演奏片段,語音克隆初創公司ElevenLabs發佈的音頻生成工具可以根據用戶輸入的提示詞生成音頻。然而,目前沒有工具可以全自動將視頻與音頻相結合,爲AI生成的視頻配音將是讓AI視頻變得更爲真實的重要一步。谷歌DeepMind推出V2A系統就是爲了解決這一問題。谷歌DeepMind的博客中寫道,V2A可與谷歌自家的Veo等視頻生成模型配合使用,直接生成有聲音的AI視頻,V2A也可用於歷史檔案畫面配音、無聲影片配音等領域。在下方的視頻中,V2A展現出了對畫面和提示詞的超強理解能力。配樂營造出了提示詞中緊張的恐怖片般的氛圍,且音頻與視頻幾乎完全同步。腳步聲基本符合人物走動的節奏,隨着畫面的切換,腳步聲也瞬間消失了。

▲音頻提示詞:電影風、驚悚片、恐怖片、音樂、緊張、氛圍、混凝土上的腳步聲在下方的這則視頻中,V2A生成的音樂婉轉悠揚,配樂後的視頻頗有西部大片般的感覺。

▲音頻提示詞:草原上夕陽西下時,悠揚柔和的口琴聲響起谷歌DeepMind發佈的Demo視頻中也出現了不少破綻。下方的視頻是一位鼓手在演奏架子鼓。而V2A生成的第一秒音頻還相對符合畫面中的演奏節奏和所擊打的鼓,然而後面的音頻卻出現了不屬於這一畫面的聲音。畫面中鼓手一直演奏的是架子鼓中的軍鼓,然而音頻中卻出現了擊打架子鼓其它部分(嗵鼓)的聲音。這顯示出V2A對複雜畫面的理解尚存在缺陷。

▲音頻提示詞:音樂會舞臺上的鼓手,周圍環繞着閃爍的燈光和歡呼的人群V2A還有一個特點就是給了創作者很大的自由。它可以爲任何視頻輸入生成無限數量的音軌,還可以給模型定義“正面提示”以引導模型輸出所需的聲音,或定義“負面提示”以引導其避免出現不需要的聲音。這種靈活性使用戶可以更好地控制V2A的音頻輸出,讓用戶可以可以快速嘗試不同的音頻輸出並選擇最佳匹配。

▲視頻1(音頻提示詞:空靈的大提琴氛圍)

▲視頻2(音頻提示詞:宇宙飛船在浩瀚的太空中疾馳,星星劃過,高速,科幻)上方2個視頻是V2A根據同一段視頻生成的不同音頻效果。只需簡單調整提示詞,V2A就能迅速給創作者提供風格迥異的音頻。

02.採用基於擴散的高質量音頻輸出,AI給視頻加註釋輔助訓練

谷歌DeepMind的研究人員稱,他們一開始嘗試了自回歸和擴散這兩種技術路徑,發現基於擴散的音頻生成方法爲同步視頻和音頻信息提供了最真實的輸出結果。V2A系統首先會將視頻輸入編碼爲壓縮表徵,然後擴散模型迭代地從隨機噪聲中提煉音頻。該過程由視覺輸入和自然語言提示引導,以生成高度符合提示詞的音頻。最後,音頻輸出被解碼,轉換爲音頻波形並與視頻數據組合。

爲了生成更高質量的音頻並增加引導模型生成特定聲音的能力,谷歌DeepMind的研究人員在訓練過程中添加了更多信息。這些信息是AI根據視頻生成的註釋,包括對畫面內聲音的詳細描述和畫面中的口語對話的記錄。通過使用視頻、音頻和附加註釋進行訓練,V2A系統學會了將特定的音頻事件與各種視覺場景相關聯,同時還能理解提示詞中提供的信息。博客中寫道,V2A系統可以理解原始像素,將文本提示變爲可選項。這意味着V2A可以直接看懂視頻畫面並據此生成音頻。這一系統也不需要人工將生成的聲音與視頻對齊,創作者不需要經歷繁瑣的調整過程。儘管目前這一系統已經初具成效,但DeepMind的研究人員認爲目前這一系統仍然存在缺陷。它的音頻輸出質量嚴重依賴於視頻輸入的質量,視頻中的僞影或失真會導致音頻質量的嚴重下滑。此外,研究人員還在不斷改進系統的口型同步能力,目前V2A在這方面表現不佳。在下方的視頻中,雖然V2A只生成了一位小女孩的說話聲,但是畫面中所有人物的口型都在變化,並且與說話內容並不一致。

▲音頻提示詞:音樂、對話內容:“這隻火雞看起來棒極了,我太餓了。”(Music, Transcript: “This turkey looks amazing, I’m so hungry.”)雖然V2A可以按照輸入文本生成人物對話的音頻,並基本與畫面中角色的口型同步。但口型同步的效果與視頻生成模型相關,如果視頻生成模型沒有對口型的能力,口型同步的效果便會大打折扣。

03.ElevenLabs開源視頻配音應用,部分效果不如V2A

5月31日,同樣在AI聲音生成賽道上的ElevenLabs發佈了他們最新的AI音頻模型,可以通過文本提示生成音效、樂器演奏片段和各種角色聲音。在ElevenLabs發佈的宣傳片中,他們的AI音頻模型展現出了不俗的能力。它能一次生成多段音效供創作人員選擇,在口型同步上表現也不錯。ElevenLabs認爲這一模型在遊戲行業和影視行業中有較大的應用前景。

就在谷歌DeepMind發佈V2A系統後不久,ElevenLabs就上線了他們的文本到聲音效果API,並基於API做了一個開源的視頻到聲音效果的應用。智東西第一時間測試了這一應用的生成效果,我們將谷歌Demo中的視頻消音後輸入了ElevenLabs的開源應用,讓其生成音頻。

▲ElevenLabs產品給谷歌Veo生成的視頻配音就這一視頻而言,ElevenLabs的應用要遜色於谷歌V2A系統。視頻前半部分的腳步聲頻率基本與畫面相符,但在切換鏡頭後音頻就與畫面不匹配了。此外,由於不支持人工提示詞輸入,視頻沒有配上適合的背景音樂。ElevenLabs的研究人員稱,他們的視頻到聲音應用在不到一天的時間內開發出來了。該應用自動將視頻按照每秒截取四幀的頻率截圖,併發送給GPT-4o模型,將畫面內容轉爲文字提示詞。提示詞將輸入到他們的文字到音頻模型中,模型會生成符合畫面內容的音頻。

04.結語:V2A系統尚不對外開放,開發者需要對模型潛在風險負責

谷歌DeepMind目前並不打算向公衆開放V2A系統。他們目前在與創作者進行溝通,收集創作者的看法與建議然後進一步優化V2A系統。谷歌DeepMind強調,他們特別將SynthID工具包(谷歌標記AIGC的特殊水印)納入到V2A研究中,爲所有AI生成內容添加水印,防止濫用該技術的可能性。ElevenLabs的音頻模型和谷歌DeepMind的V2A系統的相繼發佈,或將給內容創作的生態帶來巨大的改變。而正如之前所有AI模型那樣,音頻生成模型也面臨着濫用的風險。這將是擺在開發者面前的重要挑戰。來源:Google DeepMind(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論