谷歌真·AI配音神器來了！自動看懂畫面、對齊音頻，能爲任何視頻生成無數音頻

智東西 · 06/18 19:08

谷歌DeepMind发布最新AI视频自动配音工具，AI视频正式开启有声时代！编译 |陈骏达

编辑 |程茜

智东西6月18日消息，今日凌晨，谷歌DeepMind发布了一个名为V2A（Video-to-Audio）的系统，能根据画面内容或者手动输入的提示词直接为视频配音。它还可以为任何视频输入生成无限数量的音轨。谷歌DeepMindV2A系统最大的特点就是无需人工输入提示词也可以为视频配音。DeepMind在博客中称V2A能依靠自己的视觉能力理解视频中的像素。也就是说，V2A能看懂画面，知道画面里正在发生什么，应该出现什么声音。

▲谷歌DeepMind发布的V2A Demo视频当然，V2A也能够根据提示词生成所需的音频。使用者可以通过输入“正面提示词”来引导模型输出所需的声音，或输入“负面提示词”来引导其避免出现不需要的声音，这给了使用者更大的控制权。与其它AI音频生成工具不同，V2A在生成音频后无需人工对齐音频视频，而是可以直接自动将音频与画面对齐。但谷歌DeepMind也承认，这一系统目前仍然存在很大的局限性。如果输入的视频质量不高，那么输出的音频质量也会出现明显的下降。他们认为需要进一步提升系统安全性并补齐当前V2A在口型同步等方面的短板，才能正式向公众发布这一系统。谷歌发布V2A没过几小时，语音克隆创企ElevenLabs就发布了文字到音频模型的API，并基于这一API做了一个Demo应用让公众免费使用。

▲ElevenLabs最新应用给Luma生成的视频配音与V2A不同的是，该应用并不能直接实现画面到音频的转换，而是利用了GPT-4o将视频截图转换为文字提示词，之后再输入文字转在几秒内生成多条与画面内容匹配的音频。这是基于该公司5月底发布的文字到音频模型打造的。

01.与自家Veo模型配合生成有声视频，但对复杂画面理解存在缺陷

虽然目前Sora、Pika、可灵以及近期的Dream Machine和Runway Gen-3 Alpha等一系列视频生成模型已经能输出逼真的视频画面，但它们生成的视频都是没有声音的。AI工具也可以直接生成质量尚可的音频。AI创企Stability AI发布的Stable Audio Open模型可以输出长达47秒的乐器演奏片段，语音克隆初创公司ElevenLabs发布的音频生成工具可以根据用户输入的提示词生成音频。然而，目前没有工具可以全自动将视频与音频相结合，为AI生成的视频配音将是让AI视频变得更为真实的重要一步。谷歌DeepMind推出V2A系统就是为了解决这一问题。谷歌DeepMind的博客中写道，V2A可与谷歌自家的Veo等视频生成模型配合使用，直接生成有声音的AI视频，V2A也可用于历史档案画面配音、无声影片配音等领域。在下方的视频中，V2A展现出了对画面和提示词的超强理解能力。配乐营造出了提示词中紧张的恐怖片般的氛围，且音频与视频几乎完全同步。脚步声基本符合人物走动的节奏，随着画面的切换，脚步声也瞬间消失了。

▲音频提示词：电影风、惊悚片、恐怖片、音乐、紧张、氛围、混凝土上的脚步声在下方的这则视频中，V2A生成的音乐婉转悠扬，配乐后的视频颇有西部大片般的感觉。

▲音频提示词：草原上夕阳西下时，悠扬柔和的口琴声响起谷歌DeepMind发布的Demo视频中也出现了不少破绽。下方的视频是一位鼓手在演奏架子鼓。而V2A生成的第一秒音频还相对符合画面中的演奏节奏和所击打的鼓，然而后面的音频却出现了不属于这一画面的声音。画面中鼓手一直演奏的是架子鼓中的军鼓，然而音频中却出现了击打架子鼓其它部分（嗵鼓）的声音。这显示出V2A对复杂画面的理解尚存在缺陷。

▲音频提示词：音乐会舞台上的鼓手，周围环绕着闪烁的灯光和欢呼的人群V2A还有一个特点就是给了创作者很大的自由。它可以为任何视频输入生成无限数量的音轨，还可以给模型定义“正面提示”以引导模型输出所需的声音，或定义“负面提示”以引导其避免出现不需要的声音。这种灵活性使用户可以更好地控制V2A的音频输出，让用户可以可以快速尝试不同的音频输出并选择最佳匹配。

▲视频1（音频提示词：空灵的大提琴氛围）

▲视频2（音频提示词：宇宙飞船在浩瀚的太空中疾驰，星星划过，高速，科幻）上方2个视频是V2A根据同一段视频生成的不同音频效果。只需简单调整提示词，V2A就能迅速给创作者提供风格迥异的音频。

02.采用基于扩散的高质量音频输出，AI给视频加注释辅助训练

谷歌DeepMind的研究人员称，他们一开始尝试了自回归和扩散这两种技术路径，发现基于扩散的音频生成方法为同步视频和音频信息提供了最真实的输出结果。V2A系统首先会将视频输入编码为压缩表征，然后扩散模型迭代地从随机噪声中提炼音频。该过程由视觉输入和自然语言提示引导，以生成高度符合提示词的音频。最后，音频输出被解码，转换为音频波形并与视频数据组合。

为了生成更高质量的音频并增加引导模型生成特定声音的能力，谷歌DeepMind的研究人员在训练过程中添加了更多信息。这些信息是AI根据视频生成的注释，包括对画面内声音的详细描述和画面中的口语对话的记录。通过使用视频、音频和附加注释进行训练，V2A系统学会了将特定的音频事件与各种视觉场景相关联，同时还能理解提示词中提供的信息。博客中写道，V2A系统可以理解原始像素，将文本提示变为可选项。这意味着V2A可以直接看懂视频画面并据此生成音频。这一系统也不需要人工将生成的声音与视频对齐，创作者不需要经历繁琐的调整过程。尽管目前这一系统已经初具成效，但DeepMind的研究人员认为目前这一系统仍然存在缺陷。它的音频输出质量严重依赖于视频输入的质量，视频中的伪影或失真会导致音频质量的严重下滑。此外，研究人员还在不断改进系统的口型同步能力，目前V2A在这方面表现不佳。在下方的视频中，虽然V2A只生成了一位小女孩的说话声，但是画面中所有人物的口型都在变化，并且与说话内容并不一致。

▲音频提示词：音乐、对话内容：“这只火鸡看起来棒极了，我太饿了。”（Music, Transcript: “This turkey looks amazing, I’m so hungry.”）虽然V2A可以按照输入文本生成人物对话的音频，并基本与画面中角色的口型同步。但口型同步的效果与视频生成模型相关，如果视频生成模型没有对口型的能力，口型同步的效果便会大打折扣。

03.ElevenLabs开源视频配音应用，部分效果不如V2A

5月31日，同样在AI声音生成赛道上的ElevenLabs发布了他们最新的AI音频模型，可以通过文本提示生成音效、乐器演奏片段和各种角色声音。在ElevenLabs发布的宣传片中，他们的AI音频模型展现出了不俗的能力。它能一次生成多段音效供创作人员选择，在口型同步上表现也不错。ElevenLabs认为这一模型在游戏行业和影视行业中有较大的应用前景。

就在谷歌DeepMind发布V2A系统后不久，ElevenLabs就上线了他们的文本到声音效果API，并基于API做了一个开源的视频到声音效果的应用。智东西第一时间测试了这一应用的生成效果，我们将谷歌Demo中的视频消音后输入了ElevenLabs的开源应用，让其生成音频。

▲ElevenLabs产品给谷歌Veo生成的视频配音就这一视频而言，ElevenLabs的应用要逊色于谷歌V2A系统。视频前半部分的脚步声频率基本与画面相符，但在切换镜头后音频就与画面不匹配了。此外，由于不支持人工提示词输入，视频没有配上适合的背景音乐。ElevenLabs的研究人员称，他们的视频到声音应用在不到一天的时间内开发出来了。该应用自动将视频按照每秒截取四帧的频率截图，并发送给GPT-4o模型，将画面内容转为文字提示词。提示词将输入到他们的文字到音频模型中，模型会生成符合画面内容的音频。

04.结语：V2A系统尚不对外开放，开发者需要对模型潜在风险负责

谷歌DeepMind目前并不打算向公众开放V2A系统。他们目前在与创作者进行沟通，收集创作者的看法与建议然后进一步优化V2A系统。谷歌DeepMind强调，他们特别将SynthID工具包（谷歌标记AIGC的特殊水印）纳入到V2A研究中，为所有AI生成内容添加水印，防止滥用该技术的可能性。ElevenLabs的音频模型和谷歌DeepMind的V2A系统的相继发布，或将给内容创作的生态带来巨大的改变。而正如之前所有AI模型那样，音频生成模型也面临着滥用的风险。这将是摆在开发者面前的重要挑战。来源：Google DeepMind（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

谷歌DeepMind發佈最新AI視頻自動配音工具，AI視頻正式開啓有聲時代！編譯 |陳駿達

編輯 |程茜

智東西6月18日消息，今日凌晨，谷歌DeepMind發佈了一個名爲V2A（Video-to-Audio）的系統，能根據畫面內容或者手動輸入的提示詞直接爲視頻配音。它還可以爲任何視頻輸入生成無限數量的音軌。谷歌DeepMindV2A系統最大的特點就是無需人工輸入提示詞也可以爲視頻配音。DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素。也就是說，V2A能看懂畫面，知道畫面里正在發生什麼，應該出現什麼聲音。

▲谷歌DeepMind發佈的V2A Demo視頻當然，V2A也能夠根據提示詞生成所需的音頻。使用者可以通過輸入“正面提示詞”來引導模型輸出所需的聲音，或輸入“負面提示詞”來引導其避免出現不需要的聲音，這給了使用者更大的控制權。與其它AI音頻生成工具不同，V2A在生成音頻後無需人工對齊音頻視頻，而是可以直接自動將音頻與畫面對齊。但谷歌DeepMind也承認，這一系統目前仍然存在很大的侷限性。如果輸入的視頻質量不高，那麼輸出的音頻質量也會出現明顯的下降。他們認爲需要進一步提升系統安全性並補齊當前V2A在口型同步等方面的短板，才能正式向公衆發佈這一系統。谷歌發佈V2A沒過幾小時，語音克隆創企ElevenLabs就發佈了文字到音頻模型的API，並基於這一API做了一個Demo應用讓公衆免費使用。

▲ElevenLabs最新應用給Luma生成的視頻配音與V2A不同的是，該應用並不能直接實現畫面到音頻的轉換，而是利用了GPT-4o將視頻截圖轉換爲文字提示詞，之後再輸入文字轉在幾秒內生成多條與畫面內容匹配的音頻。這是基於該公司5月底發佈的文字到音頻模型打造的。

01.與自家Veo模型配合生成有聲視頻，但對複雜畫面理解存在缺陷

雖然目前Sora、Pika、可靈以及近期的Dream Machine和Runway Gen-3 Alpha等一系列視頻生成模型已經能輸出逼真的視頻畫面，但它們生成的視頻都是沒有聲音的。AI工具也可以直接生成質量尚可的音頻。AI創企Stability AI發佈的Stable Audio Open模型可以輸出長達47秒的樂器演奏片段，語音克隆初創公司ElevenLabs發佈的音頻生成工具可以根據用戶輸入的提示詞生成音頻。然而，目前沒有工具可以全自動將視頻與音頻相結合，爲AI生成的視頻配音將是讓AI視頻變得更爲真實的重要一步。谷歌DeepMind推出V2A系統就是爲了解決這一問題。谷歌DeepMind的博客中寫道，V2A可與谷歌自家的Veo等視頻生成模型配合使用，直接生成有聲音的AI視頻，V2A也可用於歷史檔案畫面配音、無聲影片配音等領域。在下方的視頻中，V2A展現出了對畫面和提示詞的超強理解能力。配樂營造出了提示詞中緊張的恐怖片般的氛圍，且音頻與視頻幾乎完全同步。腳步聲基本符合人物走動的節奏，隨着畫面的切換，腳步聲也瞬間消失了。

▲音頻提示詞：電影風、驚悚片、恐怖片、音樂、緊張、氛圍、混凝土上的腳步聲在下方的這則視頻中，V2A生成的音樂婉轉悠揚，配樂後的視頻頗有西部大片般的感覺。

▲音頻提示詞：草原上夕陽西下時，悠揚柔和的口琴聲響起谷歌DeepMind發佈的Demo視頻中也出現了不少破綻。下方的視頻是一位鼓手在演奏架子鼓。而V2A生成的第一秒音頻還相對符合畫面中的演奏節奏和所擊打的鼓，然而後面的音頻卻出現了不屬於這一畫面的聲音。畫面中鼓手一直演奏的是架子鼓中的軍鼓，然而音頻中卻出現了擊打架子鼓其它部分（嗵鼓）的聲音。這顯示出V2A對複雜畫面的理解尚存在缺陷。

▲音頻提示詞：音樂會舞臺上的鼓手，周圍環繞着閃爍的燈光和歡呼的人群V2A還有一個特點就是給了創作者很大的自由。它可以爲任何視頻輸入生成無限數量的音軌，還可以給模型定義“正面提示”以引導模型輸出所需的聲音，或定義“負面提示”以引導其避免出現不需要的聲音。這種靈活性使用戶可以更好地控制V2A的音頻輸出，讓用戶可以可以快速嘗試不同的音頻輸出並選擇最佳匹配。

▲視頻1（音頻提示詞：空靈的大提琴氛圍）

▲視頻2（音頻提示詞：宇宙飛船在浩瀚的太空中疾馳，星星劃過，高速，科幻）上方2個視頻是V2A根據同一段視頻生成的不同音頻效果。只需簡單調整提示詞，V2A就能迅速給創作者提供風格迥異的音頻。

02.採用基於擴散的高質量音頻輸出，AI給視頻加註釋輔助訓練

谷歌DeepMind的研究人員稱，他們一開始嘗試了自回歸和擴散這兩種技術路徑，發現基於擴散的音頻生成方法爲同步視頻和音頻信息提供了最真實的輸出結果。V2A系統首先會將視頻輸入編碼爲壓縮表徵，然後擴散模型迭代地從隨機噪聲中提煉音頻。該過程由視覺輸入和自然語言提示引導，以生成高度符合提示詞的音頻。最後，音頻輸出被解碼，轉換爲音頻波形並與視頻數據組合。

爲了生成更高質量的音頻並增加引導模型生成特定聲音的能力，谷歌DeepMind的研究人員在訓練過程中添加了更多信息。這些信息是AI根據視頻生成的註釋，包括對畫面內聲音的詳細描述和畫面中的口語對話的記錄。通過使用視頻、音頻和附加註釋進行訓練，V2A系統學會了將特定的音頻事件與各種視覺場景相關聯，同時還能理解提示詞中提供的信息。博客中寫道，V2A系統可以理解原始像素，將文本提示變爲可選項。這意味着V2A可以直接看懂視頻畫面並據此生成音頻。這一系統也不需要人工將生成的聲音與視頻對齊，創作者不需要經歷繁瑣的調整過程。儘管目前這一系統已經初具成效，但DeepMind的研究人員認爲目前這一系統仍然存在缺陷。它的音頻輸出質量嚴重依賴於視頻輸入的質量，視頻中的僞影或失真會導致音頻質量的嚴重下滑。此外，研究人員還在不斷改進系統的口型同步能力，目前V2A在這方面表現不佳。在下方的視頻中，雖然V2A只生成了一位小女孩的說話聲，但是畫面中所有人物的口型都在變化，並且與說話內容並不一致。

▲音頻提示詞：音樂、對話內容：“這隻火雞看起來棒極了，我太餓了。”（Music, Transcript: “This turkey looks amazing, I’m so hungry.”）雖然V2A可以按照輸入文本生成人物對話的音頻，並基本與畫面中角色的口型同步。但口型同步的效果與視頻生成模型相關，如果視頻生成模型沒有對口型的能力，口型同步的效果便會大打折扣。

03.ElevenLabs開源視頻配音應用，部分效果不如V2A

5月31日，同樣在AI聲音生成賽道上的ElevenLabs發佈了他們最新的AI音頻模型，可以通過文本提示生成音效、樂器演奏片段和各種角色聲音。在ElevenLabs發佈的宣傳片中，他們的AI音頻模型展現出了不俗的能力。它能一次生成多段音效供創作人員選擇，在口型同步上表現也不錯。ElevenLabs認爲這一模型在遊戲行業和影視行業中有較大的應用前景。

就在谷歌DeepMind發佈V2A系統後不久，ElevenLabs就上線了他們的文本到聲音效果API，並基於API做了一個開源的視頻到聲音效果的應用。智東西第一時間測試了這一應用的生成效果，我們將谷歌Demo中的視頻消音後輸入了ElevenLabs的開源應用，讓其生成音頻。

▲ElevenLabs產品給谷歌Veo生成的視頻配音就這一視頻而言，ElevenLabs的應用要遜色於谷歌V2A系統。視頻前半部分的腳步聲頻率基本與畫面相符，但在切換鏡頭後音頻就與畫面不匹配了。此外，由於不支持人工提示詞輸入，視頻沒有配上適合的背景音樂。ElevenLabs的研究人員稱，他們的視頻到聲音應用在不到一天的時間內開發出來了。該應用自動將視頻按照每秒截取四幀的頻率截圖，併發送給GPT-4o模型，將畫面內容轉爲文字提示詞。提示詞將輸入到他們的文字到音頻模型中，模型會生成符合畫面內容的音頻。

04.結語：V2A系統尚不對外開放，開發者需要對模型潛在風險負責

谷歌DeepMind目前並不打算向公衆開放V2A系統。他們目前在與創作者進行溝通，收集創作者的看法與建議然後進一步優化V2A系統。谷歌DeepMind強調，他們特別將SynthID工具包（谷歌標記AIGC的特殊水印）納入到V2A研究中，爲所有AI生成內容添加水印，防止濫用該技術的可能性。ElevenLabs的音頻模型和谷歌DeepMind的V2A系統的相繼發佈，或將給內容創作的生態帶來巨大的改變。而正如之前所有AI模型那樣，音頻生成模型也面臨着濫用的風險。這將是擺在開發者面前的重要挑戰。來源：Google DeepMind（本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容，未經賬號授權，禁止隨意轉載。）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

谷歌真·AI配音神器来了！自动看懂画面、对齐音频，能为任何视频生成无数音频

谷歌真·AI配音神器來了！自動看懂畫面、對齊音頻，能爲任何視頻生成無數音頻

風險及免責聲明

聲明