share_log

谷歌发布量子芯片Willow,OpenAI还在挤牙膏式发布会

谷歌發佈量子芯片Willow,OpenAI還在擠牙膏式發佈會

鈦媒體 ·  12/13 15:34

文 | 首席商業評論

就在OpenAI舉行連續12天的發佈會時,谷歌震撼性地發佈了量子芯片Willow,震驚世界,其聲稱在一個標準基準計算任務,Willow用時不到5分鐘(300秒)神速完成。

而原來世界上最快超算Frontier要完成同樣任務,則需要10億億億年,也就是10,000,000,000,000,000,000,000,000年。這是一個天文數字,甚至超過了宇宙的年齡(138億年)!

不過大家也不用恐慌量子計算會馬上顛覆一切,原來量子計算的挑戰主要是精確度,簡單理解就是,計算快,但誤差也高,如今終於克服了近30年的糾錯問題,芯片的計算誤差也呈指數級下降,有很大進步了,但離真正的概念中的量子計算機還有一段距離。

芯片的發佈無疑在硅谷引發了一場科技海嘯,還在發佈會中的OpenAI CEO 山姆奧特曼第一時間送上祝賀。谷歌CEO劈柴對此回應:量子計算+AI的多重宇宙即將帶來,也恭喜o1大模型發佈!

big

此外,劈柴還和馬斯克聯動了起來,他說未來可以藉助星艦在外太空搞一個量子計算集群。馬斯克回覆說這是有可能的,並提到了要實現卡爾達舍夫第二型文明所需的能源。

如果說量子計算機還有點遙遠,但AI大模型的更新是離我們很近的,我們來看看OpenAI連續幾天的發佈會到底發佈了什麼?OpenAI未來是要徹底商業化運作了嗎?

意外但不夠驚豔的發佈會:

01 模型仍然是常規更新

OpenAI好像很久都沒有大動作了,距離Sora的第一次亮相已經過去了294天,距離ChatGPT語音版發佈已經過去了205天,o1前瞻版的發佈也已經是九月的事了。不是說好的AI元年嗎?怎麼熱度反倒是倒過來的?

今年上半年Claude 3.5 Sonnet 儼然已經成爲目前評價最好的模型、谷歌正式上架 Veo 視頻生成模型,還有剛發佈的 Genie 2 世界模型,以及李飛飛的世界模型都走上臺前獲得了不低的關注度。

OpenAI這個時候自然需要「反擊」,來證明自己「AI一哥」的身份,OpenAI不是老了只是大招還在後面。

big

Sam Altman指出新版o1在處理複雜問題時的重大錯誤率降低了34%,而且能根據題目的難易程度調節處理時間,困難的題可能做幾分鐘,但簡單題目僅需幾秒。這使得用戶等待時間下降超過50%。Sam Altman緊接着給出了它的表現數據。o1在國際數學奧林匹克預選賽題目(AIME 2024)中拿到了83%的正確率,把GPT-4o那可憐巴巴的13%甩得連尾燈都看不見了,比起o1 -preview的56.7%也提升了將近一半!

如下圖所示,o1 Pro 僅用時 6 分 48 秒就成功解答了 2006 年國際數學奧林匹克競賽(IMO)的第三題——當年公認難度最高的題目。

big

2006 年全球約 500 名 19 歲以下的頂尖數學學生中,僅有 28 人能夠完全解答此題……他們擁有 4 個半小時的時間來攻克……而 6 名美國隊成員中無一人能夠解決這個問題……網友們嘗試使用其他所有模型(包括 o1)來解決這個問題,結果 o1 Pro 是唯一一個大語言模型給出了正確答案,也是目前推理最強的大語言模型。

ChatGPT Pro 訂閱計劃將允許用戶無限制訪問 o1、o1-mini、GPT-4o 以及高級語音模式,還包括一個僅供 Pro 用戶使用的 o1 版本,也就是o1 pro 模式。但200美元一個月的價格也足以勸退大部分普通用戶,有業內人士指出想過很漲價但沒想到會漲這麼多,如果你提不出專業的問題和具體且特別的需求,買這個會員就是在浪費錢。

不斷細分的GPT模型往好處說是爲了更好滿足不同需求的用戶,但經歷過國內互聯網手機和車圈大戰的人,應該能很快明白這是什麼意思。更多產品對應具體需求這不假,但本質上是在爭取已經存量化的細分市場,以至於要出各種不同名頭的產品。這並非不行,但這跟OpenAI宣稱的未來是屬於AI的世界,距離恐怕有點遠。

02 Sora Turbo正式上線

big

在OpenAI 12天發佈會的第三天,終於放出了一個像樣的大招。OpenAI 在 X 平台表示,自 2 月份以來,他們一直在構建 Sora Turbo,後者是一個速度明顯更快的模型版本,今天也將其作爲獨立產品向Plus 和 Pro 用戶開放。

在 Sora Turbo「Library」中,用戶可以保存自己喜歡或有用的提示詞,以便未來使用。並且保存的提示詞可以按需查看或修改,對於需要重複創作相似內容的用戶,無疑能大大提高效率。在工作流方面,Sora 的編輯功能是區別於其它競品的重要亮點。比如說,在 Remix 功能中,用戶可以利用純自然語言提示詞對視頻進行編輯,並通過簡單的「strength(強度)」選項和滑塊來控制生成的變化程度。

在技術規格上,Sora Turbo支持 5-20 秒的視頻生成,併兼容 1:1、9:16 等主流寬高比。相比早期版本,現在的生成速度有了顯著提升。

有趣的是,由於 Sora Turbo熱度太高,大批用戶湧入體驗網站,導致該網站一度崩潰,停止註冊登錄。不給力的服務也讓 Altman 連連在 X 平台安撫用戶:由於需求超出預期,我們將不得不間歇性地關閉新用戶註冊,並且生成內容的速度會在一段時間內減慢。我們正在全力以赴!

生成視頻貴這是行業內的普遍共識,但沒想到這次Sora Turbo貴的超乎想象,連兩百美元的會員都不能自由生成。對於訂閱用戶而言,20 美元的 ChatGPT Plus 計劃提供 50 個優先視頻額度(1000 積分),支持最高 720p 分辨率和 5 秒時長。而200 美元的 ChatGPT Pro 計劃則提供最多 500個優先視頻(10000 個積分),支持最高 1080p 分辨率、20 秒時長、5 個併發生成和無水印輸出。

雖然官方博客中提到,Sora Turbo用了一種新的擴散模型,它通過從一段看起來像靜態噪聲的基礎視頻開始,逐步去除噪聲並轉變爲最終的視頻。通過同時處理多個幀,模型成功解決了一個難題:即使目標暫時脫離視野,也能確保其在視頻中始終保持一致。

big

比如畫面中門的開向各開各的

但生成視頻共有的一些毛病他還是有的,在物理模擬方面,模型對物體運動的理解還不夠深入,常常出現動作不自然、物體突然消失等問題。特別是在處理帶有腿部運動的對象時,經常出現前後腿位置混亂的情況,導致動作看起來不自然。

big

又或者,某些視頻生成結果看起來像是慢動作,而視頻的其他部分則以正常速度播放,肉眼很容易察覺這種「彆扭」。簡言之,Sora 還是沒能解決老毛病,缺乏對物理世界規律的理解。另外,Sora 沒能解決文字生成的問題,導致經常出現文字混亂的現象。

筆者認爲這次Sora Turbo最大更新恐怕是對產權的明晰,官方博客中寫道,未經他人許可使用他人肖像,並禁止描繪真實未成年人;禁止創建非法內容或侵犯知識產權的內容;禁止生成有害內容,例如未經同意的親密影像、用於欺凌、騷擾或誹謗的內容,或旨在傳播暴力、仇恨或使他人痛苦的內容;創建並傳播用於欺詐、詐騙或誤導他人的內容。

big

所有 Sora Turbo生成的視頻都帶有 C2PA 元數據,這些元數據能夠標識視頻的來源,從而提高透明度,並可用於驗證其來源。這些動作或許可以應對一些新聞媒體和藝術家對OpenAI的侵權起訴,可能有助於AI視頻和內容快速走向商業化。

03 OpenAI也要把商業化放在第一位了

正如我們這次的標題所言OpenAI最新發佈會,很意外、很昂貴、很着急。論技術力OpenAI仍然是行業第一這沒有問題,但技術和美好的願景並不足以解決所有問題,能夠正常商業運作且有盈利可能的產品才能活得更久。

OpenAI在接受FT財經網採訪時表示,他們制定了明年衝擊 10 億活躍用戶的目標,現在 ChatGPT 的周活在 2.5 億左右;完全不線性的增長預期,建立在和蘋果的合作上,iPhone 的全球活躍設備超過 20 億台,這會是成爲搭便車的最好機會;OpenAI 給投資者畫大餅時也表示,達到 10 億活躍用戶,才能拿到和 Meta、Google 上同一張牌桌的入場券;OpenAI 今年的收入突破了 40 億美金,但同時創造了 50 億美金以上的成本,虧損壓力難以忽視;API 業務對收入貢獻很大,但利潤很低,來自 C 端用戶的直接訂閱才是最賺錢的,這也是 OpenAI 對提高活躍用戶規模興趣甚高的原因。

OpenAI 首席財務官 Sarah Friar 在接受《金融時報》採訪時表示:"到 2025 年,我們將從一家服務數百萬用戶的研究實驗室,發展成爲服務全球數十億消費者的科技巨頭。"這家成立九年的創業公司正在向全球科技巨頭轉型,爲公司創始人兼 CEO Sam Altman 所描繪的"智能時代"做好準備。

OpenAI從非盈利組織轉向盈利的大公司幾乎是可以確定的事,改變世界很美好但在這之前他們要先活下來。

不過OpenAI的大餅真的能這麼順利實現嗎?

OpenAI 新任政策主管 Chris Lehane 透露,公司計劃在美國中西部和西南部地區建設數據中心集群,以支持未來發展。這一自建 AI 基礎設施的戰略,與 Google 和 Amazon 等科技巨頭的做法如出一轍。Lehane 指出,在 AI 競爭中,"芯片、數據和能源"是取得成功的三大關鍵要素。但問題在於OpenAI並不比這些大公司在芯片、數據和能源上擁有太多優勢。

iPhone用戶雖然全球有20億活躍設備,但支持AI功能的只有最近兩年的產品,AI本地化是蘋果一直倡導的,未必會支持用戶去購買功能更爲複雜成本更高的01模型或者Sora Turbo。而且蘋果自家AI也一直在追趕,能用自己的未來肯定會用自己的,搭便車可沒想象中那麼容易。

OpenAI對AGI五個階段定義如下:1)L1:聊天機器人(Chatbots),具備對話能力的AI;2)L2:推理者(Reasoners),具備人類的推理水平能解決很多複雜難題;3)L3:智能體(Agents),不只是推理,還能執行全自動化業務的智能體;4)L4:創新者(Innovators),能協助人類完成新發明的AI;5)L5:組織(Organizations),可以自動執行組織全部業務的AI。

據新浪科技,2024年中旬,OpenAI評估自己處於L1階段,而這次超長髮佈會後,筆者認爲OpenAI有望在此次發佈會後進入L2階段和L3初級階段,01模型的推理能力已經毋庸置疑,智能體(Agents)也有望在這次發佈會出現。

Agent可幫忙尋找營銷線索、推送潛在客戶、進行初期產品溝通等,帶來實際收入,所以大家願意買單。Agent的核心是大模型的推理能力(鏈式推理、多步推理能力),它能把複雜事情拆解成多步,若多步推理能力不足,AI成功率很低。國內已經有大模型在推送Agent服務,或許OpenAI這次能提供不一樣的東西。

寫在最後

目前OpenAI模型的真正使用者更多是專業開發者和領域專家研究員,普通大衆用於聊天不需要這麼大算力需求。而專業人士對人類科技進步和生產力提升有很大幫助,也會反推大家能力提升。所以這個時候,就不要談生成式AI是僞需求了。

但AI也走過了早期教育市場的階段,需要回答如何在性能、效果、成本之間實現平衡了。Agent算是眼下不多的AI熱點,但從算力上來講,Agent模式的成本開支較大,是GPU的5到10倍左右,算力消耗大,是AI應用的瓶頸之一。有時候或許要做的不是另闢蹊徑,而是先在成本上合理性可靠性,再來談商業化的事。

參考資料:

  • OpenAI最短髮佈會 來源:Appso
  • Sora上線擠爆服務器 來源:智東西
  • OpenAI要搞12天連續發佈會 來源:Founder Park

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論