share_log

英伟达携全新AI模型“颠覆”音频界:可创作音乐、修改人声

英偉達攜全新AI模型「顛覆」音頻界:可創作音樂、修改人聲

財聯社 ·  11/26 09:06

①英偉達開發新型AI模型Fugatto,可創造聲音效果、改變發音方式,用自然語言提示生成音樂。②Fugatto能合成語音、爲音樂加音效,被視爲視頻和圖像生成模型的補充。

財聯社11月26日訊(編輯 黃君芝)據報道, $英偉達 (NVDA.US)$ (Nvidia)開發了一種新型人工智能(AI)模型,可以創造聲音效果,改變人的發音方式,並使用自然語言提示生成音樂。

這個模型被命名爲Fugatto,即Foundational Generative Audio Transformer Opus 1,是一個研究項目。英偉達表示,它不會宣佈任何發佈這項技術的計劃,但它可能會對從音樂、娛樂到翻譯服務等行業產生廣泛的影響。

英偉達應用深度學習研究副總裁Bryan Catanzaro在接受採訪時表示:「Fugatto最令人興奮的地方在於,它擁有一個模型,你可以要求它以某種方式發出聲音,這真的打開了你對它應用範圍的想象。」

他進一步解釋說,市場上的其他模型,有些可以合成語音,有些可以爲音樂添加音效,但Fugatto全部都可以做到。Catanzaro說,可以將其視爲視頻和圖像生成模型(如Stability AI的Stable Video Diffusion或OpenAI的Sora)的一種補充。

「這裏最基本的改進是……我們能夠使用語言合成音頻,我認爲,這爲人們可以用來創造驚人音頻的工具開闢了新的前景。」他補充說。

根據英偉達的說法,Fugatto是第一個具有新興特性的基礎模型,這意味着它能夠混合經過訓練的元素,並遵循「自由形式的指令」。

具體而言,該模型可以通過標準的文字提示生成音頻,也可以處理您上傳的音頻文件。所以,如果你有一個人說話的文件,你可以把那個人的話翻譯成另一種語言,同時讓它聽起來像他的聲音。你也可以選擇一個簡單的曲調,讓它聽起來像管絃樂表演,或者在音樂中添加不同的節拍。

此外,你也可以上傳一個文檔,讓模型用你喜歡的任何聲音朗讀。更重要的是,你可以告訴模型發出帶有情感分量的聲音。

不過,Catanzaro也補充說,這種模型並不總是完美的。而且,就像生成圖像和視頻的模型一樣,Fugatto也會催生藝術家、音響工程師和相關領域人員的擔憂。但Catanzaro指出,他的本意是希望這項技術能幫助音樂家。

「我希望這是藝術家探索的新工具。」「我認爲音頻一直是一個富有成效的探索領域。你知道,當我們獲得新的音頻工具時,有時我們會獲得新的音樂形式。」他說。

編輯/jayden

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論