OpenAI展示語音生成“武器庫”：太強大以至於無法推廣

財聯社 · 03/30 17:12

来源：财联社
作者：赵昊

①美国人工智能研究公司OpenAI在官网首次分享了名为“Voice Engine”的预览；

②由于合成语音可能会被滥用，公司只在小范围内与开发人员分享了该模型，未来可能不会广泛推出这一功能。

当地时间周五（3月29日），美国人工智能研究公司OpenAI在官网首次分享了名为“Voice Engine”（语音引擎）的预览。

据介绍，通过输入文本和15秒音频样本，Voice Engine便可以生成一个与音频中说话者非常相似的自然语音。新闻稿强调，生成的自然语音具有丰富的情感和逼真的声音。

OpenAI称，公司在2022年底就启动了Voice Engine的研发工作，并将它用作一些其他功能的预设语音。由于合成语音可能会被滥用，公司只在小范围内与开发人员分享了该模型，未来可能不会广泛推出这一功能。

新闻稿写道，儿童教育技术公司Age of Learning正在使用这个模型来生成一些预先编写好的内容，并且还结合GPT-4 创建实时的响应来与学生互动。

在案例中，OpenAI放出了一段英语男声和西班牙语女声的样本音频，并用两段音频各生成了讲解知识的语音。

另外，数字人视频生成初创公司HeyGen也采用了这项技术。HeyGen可以根据内容创建定制的数字人化身，而Voice Engine可以将样本的声音转换成多种其他语言，来帮助产品营销到销售演示。

新闻稿提到，在转换语言时，Voice Engine会保留原始说话者的母语口音，例如样本中的人使用的是法语，那么生成的英语将带有法国口音。本周早些时候，有消息称HeyGen正在进行新一轮融资，投前估值达到4.4亿美元。

除此以外，OpenAI还展示了生成较小语系和孤立语系声音的能力，以帮助落后地区的社区卫生工作者；同时还与神经科学研究所探索AI在临床环境中的应用，比如帮助语言障碍者等用途。

“太强大了导致无法推广”

OpenAI写道，“我们认识到，生成声音的功能存在严重风险，这一点在大选年尤为突出。我们正在与来自政府、媒体、娱乐、教育等领域的国际合作伙伴合作，以确保我们在建设过程中吸收他们的反馈。 ”

OpenAI产品负责人Jeff Harris告诉媒体，“如果你能正确地设置音频，基本上就能生成人类口径的声音，这是一种相当令人印象深刻的技术。”但Harris提到，准确模仿人类语音的能力确实存在安全隐患。

今年1月，美国就出现“AI拜登”事件，由AI生成的“假拜登”在电话中用逼真的声音鼓励可能支持民主党的5000位选民在新罕布什尔州初选中不要投票。本月早些时候，拜登呼吁国会通过立法来监管AI，包括禁止“AI语音模仿”等。

在测试计划中，OpenAI要求其合作伙伴遵守其制定的使用政策：在使用语音样本之前要征得声音主人的同意，并明确告诉听众声音是AI生成的。该公司还在安装一种听不见的音频水印，以区分音频是否是由其工具创建的。

OpenAI写道，“无论我们最终是否会广泛部署这项技术，让全球各地的人们了解这个发展方向都是非常重要的。”

编辑/Jeffy

來源：財聯社
作者：趙昊

①美國人工智能研究公司OpenAI在官網首次分享了名爲“Voice Engine”的預覽；

②由於合成語音可能會被濫用，公司只在小範圍內與開發人員分享了該模型，未來可能不會廣泛推出這一功能。

當地時間週五（3月29日），美國人工智能研究公司OpenAI在官網首次分享了名爲“Voice Engine”（語音引擎）的預覽。

據介紹，通過輸入文本和15秒音頻樣本，Voice Engine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調，生成的自然語音具有豐富的情感和逼真的聲音。

OpenAI稱，公司在2022年底就啓動了Voice Engine的研發工作，並將它用作一些其他功能的預設語音。由於合成語音可能會被濫用，公司只在小範圍內與開發人員分享了該模型，未來可能不會廣泛推出這一功能。

新聞稿寫道，兒童教育技術公司Age of Learning正在使用這個模型來生成一些預先編寫好的內容，並且還結合GPT-4 創建實時的響應來與學生互動。

在案例中，OpenAI放出了一段英語男聲和西班牙語女聲的樣本音頻，並用兩段音頻各生成了講解知識的語音。

另外，數字人視頻生成初創公司HeyGen也採用了這項技術。HeyGen可以根據內容創建定製的數字人化身，而Voice Engine可以將樣本的聲音轉換成多種其他語言，來幫助產品營銷到銷售演示。

新聞稿提到，在轉換語言時，Voice Engine會保留原始說話者的母語口音，例如樣本中的人使用的是法語，那麼生成的英語將帶有法國口音。本週早些時候，有消息稱HeyGen正在進行新一輪融資，投前估值達到4.4億美元。

除此以外，OpenAI還展示了生成較小語系和孤立語系聲音的能力，以幫助落後地區的社區衛生工作者；同時還與神經科學研究所探索AI在臨床環境中的應用，比如幫助語言障礙者等用途。

OpenAI寫道，“我們認識到，生成聲音的功能存在嚴重風險，這一點在大選年尤爲突出。我們正在與來自政府、媒體、娛樂、教育等領域的國際合作夥伴合作，以確保我們在建設過程中吸收他們的反饋。 ”

OpenAI產品負責人Jeff Harris告訴媒體，“如果你能正確地設置音頻，基本上就能生成人類口徑的聲音，這是一種相當令人印象深刻的技術。”但Harris提到，準確模仿人類語音的能力確實存在安全隱患。

今年1月，美國就出現“AI拜登”事件，由AI生成的“假拜登”在電話中用逼真的聲音鼓勵可能支持民主黨的5000位選民在新罕布什爾州初選中不要投票。本月早些時候，拜登呼籲國會通過立法來監管AI，包括禁止“AI語音模仿”等。

在測試計劃中，OpenAI要求其合作伙伴遵守其制定的使用政策：在使用語音樣本之前要徵得聲音主人的同意，並明確告訴聽衆聲音是AI生成的。該公司還在安裝一種聽不見的音頻水印，以區分音頻是否是由其工具創建的。

OpenAI寫道，“無論我們最終是否會廣泛部署這項技術，讓全球各地的人們了解這個發展方向都是非常重要的。”

編輯/Jeffy

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。