share_log

抢在ChatGPT前发布语言助手!法国实验室演示自带70种情绪AI

搶在ChatGPT前發佈語言助手!法國實驗室演示自帶70種情緒AI

華爾街見聞 ·  02:01

實驗室Kyutai稱,Moshi是全球首款全體大衆都可使用的實時生成式語音AI,能帶着70種情緒和風格講話,並展示了Moshi用濃重的法國口音朗誦一首它自己創作的詩歌。Moshi模型將未來幾周內推出,模型代碼免費分享。

本文作者:李丹

來源:硬AI

OpenAI被超越了,而且還是“栽在”已經公開演示過的語音助手上。

當地時間7月3日週三,法國獨立非盈利AI研究實驗室Kyutai公開演示了一款語音助理Moshi的實驗性原型。Kyutai介紹,Moshi由該實驗室的八人研究團隊耗時六個月從零開始開發,是全球首款全體大衆都可使用的實時生成式語音AI。

Moshi具有多種類似人類的情緒。Kyutai的科學家們表示,Moshi系統能夠帶着70種情緒和風格講話。他們現場演示了,Moshi如何就攀登珠穆朗瑪峯提供建議,還讓Moshi用濃重的法國口音朗誦一首它自己創作的詩歌。

Kyutai宣佈,週二晚些時候可在其網站查看Moshi的交互式演示。從週二起,就可以在線免費測試Moshi。Kyutai致力於爲AI的開放研究和整個生態系統的發展做出貢獻,Moshi模型的代碼和權重將很快免費共享,這對於此類技術來說也是前所未有的。Kyutai的一名代表表示,Moshi模型和相關研究將在未來幾周內發佈,沒有透露具體日期。

Kyutai認爲,Moshi有潛力徹底改變數字世界中語音的使用方式,並舉例稱,在表達情感和多種聲音之間的互動方面,它的文本轉語音功能非常出色。

Kyutai的CEO Patrick Pérez稱,Moshi可以“邊說話邊思考”,還說“我們相信 Moshi 具有巨大的潛力,可以改變我們與機器交流的方式。”

研究者Lucas Beyer在社交媒體發帖評論,Kyutai的Moshi是首個實時音頻大語言模型(LLM)。Kyutai的演示種,Moshi基本上沒有延遲,甚至還打斷了演講者幾次。它實際上有點急於快速回答。而且Moshi是全部開源的。雖然聲音質量還有點機械化,但作爲初版,它還是表現不錯。總體來說很酷。

Beyer指出,演示時,在蘋果電腦macbook設備上的模型有一些實時拒絕誤報,也許Kyutai對安全調整有點太急切了。然而,這只是證實了演示確實是實時的,甚至可能是自由發揮的,他喜歡這點。

有網友評論稱,有趣的是,看到日語單詞以賽博朋克的方式融入西方文化。在日語中,Kyutai 的意思是球體,moshi 是電話裏的口語問候語,所以這兩者結合起來就是“你好球體”。

Moshi被視爲ChatGPT的最新挑戰者。包括Anthropic、Cohere和谷歌在內,越來越多初創公司和科技巨頭推出模型與GPT-4 競爭,儘管一些行業專家擔心這項新興技術帶來危險。

Moshi的問世讓Kyutai成爲搶跑OpenAI推出語音助手的先鋒。OpenAI之前打算在機器人聊天工具ChatGPT上提供類似功能,不到兩個月前正式向公衆展示了基於GPT-4升級版GPT-4o模型的語音助手。

在OpenAI今年5月中展示過程中,語言助手錶現得像一個真正的成年人,能聽能說能看,還能有情緒變化,最關鍵是幾乎可以即時回應請求。它不僅可以講睡前故事,能通過外表觀察人的情緒變化,還能像一位朋友般安撫人緊張的情緒,甚至還可以像個經驗豐富的數學老師般指導解代數方程,讓一些觀衆聯想到了2013年電影《她》中的AI虛擬助手。

但一個多月後,OpenAI又宣佈因安全顧慮推遲發佈上述語音助手。6月25日上週二,OpenAI在社交媒體發帖稱,推遲上線ChatGPT語音助手功能是因爲,需要確保它能安全有效地處理來自數百萬用戶的請求,還需要一個月才能達到公司的發佈標準。

有網友本週二評論稱,Kyutai推出Moshi基本上等於,把OpenAI還沒公開發布的客戶產品開源了,向Kyutai致敬。

不同於微軟150億美元支持的“美系”資本背景OpenAI,Kyutai致力於研究通用AI,去年11月“出生”起得到合計3億歐元支持,其中主要來自歐洲實業資本。

Kyutai是法國億萬富翁Xavier Niel去年表示將對AI領域投資2億歐元的投資對象之一。Niel旗下的電信集團Iliad去年公佈,將爲Kyutai項目投入1億歐元。另一位法國億萬富翁、法國航運和物流巨頭CMA CGM的CEO Rodolphe Saadé也對Kyutai投資了1億歐元。前谷歌CEO Eric Schmidt也參與了Kyutai的投資,未披露金額。

Niel本週二表示,Moshi表明,歐洲可以成爲AI發展的全球參與者。Kyutai“今天展示的所有產品都是全球一流的,我們很高興能在歐洲推出這款產品。”

在安全方面,Kyutai的首席科學官 Hervé Jégou介紹,Kyutai將使用索引和水印工具識別和跟蹤其 AI 生成的音頻。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論