share_log

OpenAI展示语音生成“武器库”:太强大以至于无法推广

OpenAI展示語音生成“武器庫”:太強大以至於無法推廣

財聯社 ·  03/30 17:12

來源:財聯社
作者:趙昊

①美國人工智能研究公司OpenAI在官網首次分享了名爲“Voice Engine”的預覽;

②由於合成語音可能會被濫用,公司只在小範圍內與開發人員分享了該模型,未來可能不會廣泛推出這一功能。

當地時間週五(3月29日),美國人工智能研究公司OpenAI在官網首次分享了名爲“Voice Engine”(語音引擎)的預覽。

據介紹,通過輸入文本和15秒音頻樣本,Voice Engine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,生成的自然語音具有豐富的情感和逼真的聲音。

OpenAI稱,公司在2022年底就啓動了Voice Engine的研發工作,並將它用作一些其他功能的預設語音。由於合成語音可能會被濫用,公司只在小範圍內與開發人員分享了該模型,未來可能不會廣泛推出這一功能。

新聞稿寫道,兒童教育技術公司Age of Learning正在使用這個模型來生成一些預先編寫好的內容,並且還結合GPT-4 創建實時的響應來與學生互動。

在案例中,OpenAI放出了一段英語男聲和西班牙語女聲的樣本音頻,並用兩段音頻各生成了講解知識的語音。

另外,數字人視頻生成初創公司HeyGen也採用了這項技術。HeyGen可以根據內容創建定製的數字人化身,而Voice Engine可以將樣本的聲音轉換成多種其他語言,來幫助產品營銷到銷售演示。

新聞稿提到,在轉換語言時,Voice Engine會保留原始說話者的母語口音,例如樣本中的人使用的是法語,那麼生成的英語將帶有法國口音。本週早些時候,有消息稱HeyGen正在進行新一輪融資,投前估值達到4.4億美元。

除此以外,OpenAI還展示了生成較小語系和孤立語系聲音的能力,以幫助落後地區的社區衛生工作者;同時還與神經科學研究所探索AI在臨床環境中的應用,比如幫助語言障礙者等用途。

“太強大了導致無法推廣”

OpenAI寫道,“我們認識到,生成聲音的功能存在嚴重風險,這一點在大選年尤爲突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作,以確保我們在建設過程中吸收他們的反饋。 ”

OpenAI產品負責人Jeff Harris告訴媒體,“如果你能正確地設置音頻,基本上就能生成人類口徑的聲音,這是一種相當令人印象深刻的技術。”但Harris提到,準確模仿人類語音的能力確實存在安全隱患。

今年1月,美國就出現“AI拜登”事件,由AI生成的“假拜登”在電話中用逼真的聲音鼓勵可能支持民主黨的5000位選民在新罕布什爾州初選中不要投票。本月早些時候,拜登呼籲國會通過立法來監管AI,包括禁止“AI語音模仿”等。

在測試計劃中,OpenAI要求其合作伙伴遵守其制定的使用政策:在使用語音樣本之前要徵得聲音主人的同意,並明確告訴聽衆聲音是AI生成的。該公司還在安裝一種聽不見的音頻水印,以區分音頻是否是由其工具創建的。

OpenAI寫道,“無論我們最終是否會廣泛部署這項技術,讓全球各地的人們了解這個發展方向都是非常重要的。”

編輯/Jeffy

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論