①OpenAI發佈三款全新語音模型,其中,文本轉語音模型GPT-4o MiniTTS能提供更逼真的語音,開發人員可指導其用自然語言說話;③新語音轉文本模型準確率大幅提升,在英語、西班牙語中的單詞錯誤率僅有2%左右,在普通話中的錯誤率爲7%左右。
美東時間週四,OpenAI舉行了一場重磅的技術直播,發佈了三款全新語音模型:語音轉文本模型GPT-4o Transcribe和GPT-4o MiniTranscribe,以及文本轉語音模型GPT-4o MiniTTS。

OpenAI聲稱,這些模型在之前版本的基礎上取得了明顯的進步,也標誌着OpenAI距離其「AI智能體(AI AGENT)」的願景更進一步。
更逼真的語音生成模型
OpenAI聲稱,其新的文本到語音模型GPT-4o MiniTTS不僅能提供更細緻入微、聽起來更逼真的語音,而且比前一代語音合成模型更「可操控」。
開發人員可以指導該模型如何用自然語言說話——例如,「像一個瘋狂的科學家一樣說話」、「像一個富有同理心的客服一樣說話」或「像一個正念老師一樣使用平靜的聲音」。

OpenAI產品人員傑夫賀錦麗 (Jeff Harris) 表示,他們的目標是讓開發者能夠定製語音「體驗」和「環境」。
賀錦麗表示:「在不同的情況下,你想要的不會僅僅是一個平淡、單調的聲音…如果你在客戶支持體驗中,你希望這個聲音表達出犯錯後的歉意,你可以讓聲音表達出那種情感……我們的信念是,開發者和用戶不僅想要真正控制說什麼,還想要控制怎麼說。」
語音轉文字模型準確率大幅提升
至於OpenAI的新語音轉文本模型「GPT-4o-transcript」和「GPT-4o-mini- transcript」,它們的準確度明顯高於 OpenAI之前發佈的語音轉文本模型Whisper,並在多種語言中實現更低的詞錯誤率 (WER)。

OpenAI聲稱,經過「多樣化、高質量音頻數據集」的訓練,新模型可以更好地捕捉口音和不同的語音,即使在混亂的環境中也是如此。
OpenAI還表示,新模型在工作中產生幻覺的概率也降低了。賀錦麗補充道。衆所周知,Whisper喜歡在談話中編造詞彙,甚至整段文字,而「新模型在這方面比Whisper有了很大的改進。」
賀錦麗表示:「確保模型的準確性對於獲得可靠的語音體驗至關重要,(在這種情況下)準確性意味着模型準確地聽到了單詞,(並且)沒有填寫他們沒有聽到的細節。」
當然,模型的準確率和其被轉錄的語言有較大關係。
根據OpenAI的內部基準測試,GPT-4o-transcribe是兩種新轉錄模型中更準確的一種,其在英語、西班牙語中的單詞錯誤率僅有2%左右,在普通話中的錯誤率爲7%左右,而在印度語和達羅毗荼語系(如泰米爾語、泰盧固語等)中,其「單詞錯誤率」仍接近30%,這意味着模型中每10個單詞中就有3個與這些語言的人類轉錄不同。
距離AI智能體更進一步
OpenAI聲稱,這些模型符合其更廣泛的「AI智能體(AI AGENT)」的願景:構建能夠代表用戶獨立完成任務的自動化系統。
儘管「智能體(Agent)」的定義可能存在爭議,但OpenAI的產品主管奧利維爾·戈德曼(Olivier Godement)將一種解釋描述爲可以與企業客戶交談的聊天機器人。
「在接下來的幾個月裏,我們會看到越來越多的AI智能體出現,」戈德蒙德表示,「因此,總的主題是幫助客戶和開發者利用有用、可用和準確的智能體。」
與傳統不同的是,OpenAI並不打算公開其新的轉錄模型。該公司此前在麻省理工學院的許可下發佈了用於商業用途的新版Whisper。
賀錦麗表示,GPT- 4o -transcribe和GPT- 4o -mini-transcribe「比Whisper大得多」,因此不適合公開發佈。
「它們不是那種能在筆記本電腦上本地運行的模式,比如Whisper那種,」他繼續說道,「我們想確保,如果我們以開源方式發佈東西,我們是經過深思熟慮的,我們有一個真正針對特定需求的模型。」
編輯/lambor