英偉達攜全新AI模型「顛覆」音頻界：可創作音樂、修改人聲

財聯社 · 11/26 09:06

①英伟达开发新型AI模型Fugatto，可创造声音效果、改变发音方式，用自然语言提示生成音乐。②Fugatto能合成语音、为音乐加音效，被视为视频和图像生成模型的补充。

财联社11月26日讯（编辑黄君芝）据报道， $英伟达 (NVDA.US)$ （Nvidia）开发了一种新型人工智能（AI）模型，可以创造声音效果，改变人的发音方式，并使用自然语言提示生成音乐。

这个模型被命名为Fugatto，即Foundational Generative Audio Transformer Opus 1，是一个研究项目。英伟达表示，它不会宣布任何发布这项技术的计划，但它可能会对从音乐、娱乐到翻译服务等行业产生广泛的影响。

英伟达应用深度学习研究副总裁Bryan Catanzaro在接受采访时表示：“Fugatto最令人兴奋的地方在于，它拥有一个模型，你可以要求它以某种方式发出声音，这真的打开了你对它应用范围的想象。”

他进一步解释说，市场上的其他模型，有些可以合成语音，有些可以为音乐添加音效，但Fugatto全部都可以做到。Catanzaro说，可以将其视为视频和图像生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一种补充。

“这里最基本的改进是……我们能够使用语言合成音频，我认为，这为人们可以用来创造惊人音频的工具开辟了新的前景。”他补充说。

根据英伟达的说法，Fugatto是第一个具有新兴特性的基础模型，这意味着它能够混合经过训练的元素，并遵循“自由形式的指令”。

具体而言，该模型可以通过标准的文字提示生成音频，也可以处理您上传的音频文件。所以，如果你有一个人说话的文件，你可以把那个人的话翻译成另一种语言，同时让它听起来像他的声音。你也可以选择一个简单的曲调，让它听起来像管弦乐表演，或者在音乐中添加不同的节拍。

此外，你也可以上传一个文档，让模型用你喜欢的任何声音朗读。更重要的是，你可以告诉模型发出带有情感分量的声音。

不过，Catanzaro也补充说，这种模型并不总是完美的。而且，就像生成图像和视频的模型一样，Fugatto也会催生艺术家、音响工程师和相关领域人员的担忧。但Catanzaro指出，他的本意是希望这项技术能帮助音乐家。

“我希望这是艺术家探索的新工具。”“我认为音频一直是一个富有成效的探索领域。你知道，当我们获得新的音频工具时，有时我们会获得新的音乐形式。”他说。

编辑/jayden

①英偉達開發新型AI模型Fugatto，可創造聲音效果、改變發音方式，用自然語言提示生成音樂。②Fugatto能合成語音、爲音樂加音效，被視爲視頻和圖像生成模型的補充。

財聯社11月26日訊（編輯黃君芝）據報道， $英偉達 (NVDA.US)$ （Nvidia）開發了一種新型人工智能（AI）模型，可以創造聲音效果，改變人的發音方式，並使用自然語言提示生成音樂。

這個模型被命名爲Fugatto，即Foundational Generative Audio Transformer Opus 1，是一個研究項目。英偉達表示，它不會宣佈任何發佈這項技術的計劃，但它可能會對從音樂、娛樂到翻譯服務等行業產生廣泛的影響。

英偉達應用深度學習研究副總裁Bryan Catanzaro在接受採訪時表示：「Fugatto最令人興奮的地方在於，它擁有一個模型，你可以要求它以某種方式發出聲音，這真的打開了你對它應用範圍的想象。」

他進一步解釋說，市場上的其他模型，有些可以合成語音，有些可以爲音樂添加音效，但Fugatto全部都可以做到。Catanzaro說，可以將其視爲視頻和圖像生成模型（如Stability AI的Stable Video Diffusion或OpenAI的Sora）的一種補充。

「這裏最基本的改進是……我們能夠使用語言合成音頻，我認爲，這爲人們可以用來創造驚人音頻的工具開闢了新的前景。」他補充說。

根據英偉達的說法，Fugatto是第一個具有新興特性的基礎模型，這意味着它能夠混合經過訓練的元素，並遵循「自由形式的指令」。

具體而言，該模型可以通過標準的文字提示生成音頻，也可以處理您上傳的音頻文件。所以，如果你有一個人說話的文件，你可以把那個人的話翻譯成另一種語言，同時讓它聽起來像他的聲音。你也可以選擇一個簡單的曲調，讓它聽起來像管絃樂表演，或者在音樂中添加不同的節拍。

此外，你也可以上傳一個文檔，讓模型用你喜歡的任何聲音朗讀。更重要的是，你可以告訴模型發出帶有情感分量的聲音。

不過，Catanzaro也補充說，這種模型並不總是完美的。而且，就像生成圖像和視頻的模型一樣，Fugatto也會催生藝術家、音響工程師和相關領域人員的擔憂。但Catanzaro指出，他的本意是希望這項技術能幫助音樂家。

「我希望這是藝術家探索的新工具。」「我認爲音頻一直是一個富有成效的探索領域。你知道，當我們獲得新的音頻工具時，有時我們會獲得新的音樂形式。」他說。

編輯/jayden

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

英伟达携全新AI模型“颠覆”音频界：可创作音乐、修改人声