追蹤AI最新趨勢

專題 893條資訊 16166人訂閱

OpenAI慘遭打臉！SearchGPT官方演示大翻車，源代碼竟暴露搜索機制

華爾街見聞 · 07/28 18:31

SearchGPT發佈剛過兩天，已有人灰度測試到了。

今天，網友Kesku自制的demo全網刷屏，SearchGPT結果輸出如此神速，讓所有人爲之震驚。

當詢問Porter Robinson出了新唱片嗎？

只見，SearchGPT眨眼功夫之間，即刻給出了答案「SMILE」，最後還附上了鏈接。

再來看移動版本的回答速度，回答延遲幾乎爲0。

評論區下方，震驚體鋪屏。

但另一方面，OpenAI當天放出的官方演示，被外媒《大西洋月刊》曝出其中的問題。

在回答「8月在北卡羅來納Boone舉辦的音樂節」的問題時，SearchGPT竟弄錯時間，出現了幻覺。

說好的，要取代谷歌呢？

全網一手實測來了

Kesku自己測試的另一個demo，呈現了SearchGPT的小部件。

她發現的一個現象是，SearchGPT傾向於強烈關注搜索結果。

「有時就需要明確告訴它，自己想要做什麼，而不是想從網上得到什麼」。

比如詢問它倫敦天氣，SearchGPT先給出了未來七天的天氣預報。

在倫敦野餐的最佳時間和地點有什麼，類似小部件的形式給出了幾個備選項。

Kesku還在移動端測試了一些例子。

查詢$英偉達 (NVDA.US)$股票，會給出英偉達股票整體的可視化圖，隨後給出了一些分析。所有股票信息都被無縫集成在頁面中。

輸入一首歌名「Never Gonna Give You Up」，然後直接給出了YouTube歌曲視頻，不用跳轉到其他網頁，在一個頁面就可以聽歌、看視頻。

除了搜索功能，網友還樂此不疲地進行「人性化測試」——

「你怎麼樣」？

「作爲一個AI語言模型，我沒有感情，但我在這裏並隨時準備幫助你解答問題。今天我能爲你提供什麼幫助」？

「給我講一個笑話」

一個英語世界的經典雙關梗就此出現——

「科學家不信任原子。爲什麼科學家不信任原子？因爲它們構成了一切！」

網友現場出題

眼饞的網友們，紛紛在評論區出題，讓帖主幫忙測試。

第一位網友問道，「它支持地區和新聞嗎，比如來自TestingCatlog的最新新聞」。

Kesku測試後表示，「它可以通過IP地址或精確位置爲你提供本地信息（後者默認是關閉的，可以在設置中選擇開啓）——比如『我附近的電影院』這樣的查詢效果很好」。

「幫忙試一下其智能體搜索的解釋能力」。

SearchGPT在給出關於高帶寬存儲器的解釋中，藍色標出的內容，是參考解釋。

你能嘗試搜索一些付費牆後面的文章嗎？那些最近與OpenAI簽署了合作伙伴關係的文章。

Kesku給出了一篇文章的內容，不過貌似還是不能越過付費內容，僅是給出了文章的總結。

更細節的內容，依舊無法看到。

你能嘗試搜索「$Yandex (YNDX.US)$月活躍用戶數」嗎？

我想看看，當它找不到我想要的確切答案時，它是否會承認自己找到了日活躍用戶數（DAU），而不是月活躍用戶數（MAU），還是會像copilot那樣裝糊塗，只是複製粘貼整個搜索結果而忽視實際查詢。

Kesku搜素後的結果如下所示：

顯然，根據提問者問題，SearchGPT給出了回答。

「與Perplexity相比如何」？

Kesku稱暫時還未測試複雜的任務，不過非常喜歡目前測出的結果。

在下面提示中，她直接問道「誰是Kesku」這麼小衆的問題。

沒想到，SearchGPT給出了正確的解答，Perplexity卻回答錯誤了。

有網友對此評價道，「很酷的演示！也許SearchGPT能在本地搜索領域帶來一些變革？它能幫助你在現實世界中完成事情。從外觀來看，它有很好的數據源、簡潔的小部件，而且速度超快。不知道與谷歌相比，他們能把每次查詢的成本降低到多少」？

揭秘SearchGPT搜索機制

科技媒體TestingCatolog也率先進行了內測，並揭開了SearchGPT搜索機制的一角。

與當前ChatGPT提供的通用Bing搜索功能不同，SearchGPT更擅長提供實時信息。

雖然仍舊依賴Bing的索引，但SearchGPT將會有自己的網絡爬蟲（類似Perplexity），用於動態獲取實時數據，從而克服Bing速度較慢的問題。

甚至，TestingCatalog還挖出了SearchGPT的源代碼，並在評論區信誓旦旦地表示「絕對準確，我有內部人士。」

源代碼不僅露出了Bing的接口，而且可以發現，搜索結果由多模態模型提供支持。

雖然看不出其中具體的處理流程，但調用的模型應該具有自動理解圖像的功能。

官方演示大翻車，OpenAI慘遭打臉

就在網友們興致勃勃地試用時，《大西洋月刊》卻站出來潑了一盆冷水——SearchGPT在官方demo中有明顯的搜索結果錯誤。

用戶給出的搜索問題是「8月在北卡羅來納Boone舉辦的音樂節」。

這個問題其實很難體現SearchGPT相對於傳統搜索引擎的優勢。同樣的問題如果拋給谷歌搜索，也能給出相差無幾的結果。

比如SearchGPT放在首行的「阿巴拉契亞夏季節」（An Appalachian Summer Festival），也同樣是谷歌搜索的第二位結果。

但尷尬的是，標題下方的AI摘要把一個關鍵信息弄錯了——經主辦方確認，音樂節舉辦日期爲6月29日～7月27日。

如果你按照SearchGPT給出的信息去買票，將一無所獲——7月29日～8月16日恰好是售票處正式關閉的時段。

OpenAI發言人Kayla Wood已經向《大西洋月刊》承認了這個錯誤，並表示「這僅是初始的原型，我們將不斷改進。」

這個錯誤讓人不禁想起Bard曾經造成的慘劇。

2023年2月，谷歌推出了這個聊天機器人產品以對抗ChatGPT，但首次亮相就出現了事實性錯誤，導致Alphabet股價當天暴跌9%，市值瞬間蒸發1000億美元。

Bard稱James Webb太空望遠鏡拍攝了系外行星的第一張照片，但實際上這個功績屬於歐洲南部天文台的VLT

但好在，OpenAI沒有股價可跌，而且僅開放內測的做法也是相當謹慎。畢竟有谷歌的前車之鑑，可以預料到，LLM這種錯誤幾乎是無法避免的。

即使OpenAI能夠找到方法大幅減少SearchGPT的幻覺，但面對龐大的訪問量也是「杯水車薪」。

假設幻覺率僅爲1%（這個比率很難達到），按照谷歌的規模，也會導致每天產生數千萬個錯誤答案。

更何況，我們目前還沒有發現足夠可靠且有效的方法，來消除LLM的廢話和幻覺。

而且，Andrej Karpathy大佬曾經在推特上表達過這樣的觀點：「幻覺並不是bug，而是LLM最大的特點。」

Karpathy將LLM比喻爲「夢想機器」：我們用prompt引導模型「做夢」，再加上對訓練文檔的模糊記憶，就得到了生成結果。

雖然大多數時候生成結果是有用的，但既然是「夢境」就有可能失控。當LLM做夢進入有事實錯誤的領域時，我們就會給它貼上「幻覺」的標籤。

這看起來是個bug，但LLM只是做了它一直在做的事情。

這種機制和傳統的搜索引擎完全不同。後者接收提示後僅僅是逐字返回數據庫中最相似的文檔，因此你可以說它有「創造性問題」，因爲搜索引擎永遠不可能創造新的回應。

根據Karpathy的說法，我們就很難指望由當前LLM驅動的AI搜索能生成100%真實準確的結果。

那麼這場搜索引擎的變革會怎樣展開？LLM的「夢境創意」和傳統搜索引擎的真實可靠，究竟是共存下去，還是會「你死我亡」？

本文作者：新智元，本文來源：新智元，原文標題：《OpenAI慘遭打臉！SearchGPT官方演示大翻車，源代碼竟暴露搜索機制》

編輯/ping

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。