share_log

从AI搜索到语音陪练,腾讯元宝全面评测来了!大模型C端玩家谁更胜一筹?

從AI搜索到語音陪練,騰訊元寶全面評測來了!大模型C端玩家誰更勝一籌?

財聯社 ·  05/31 17:52

①信息效率比拼上,GPT-4o在信息深度和回答速度方面表現亮眼,騰訊元寶則憑藉與騰訊生態的融合,提供了更全面、時效性強的結果。 ②應用趣味性比拼上,騰訊元寶和豆包的智能體功能相似,元寶的口語陪練和超能翻譯官功能略優於豆包;但在AI圖像的細膩度和創新性方面,兩者都有明顯的提升空間。

《科創板日報》5月31日訊(記者 朱凌) 直至五月尾聲,AI應用市場的火熱態勢依舊不減。30日,基於混元大模型的AI助手App“騰訊元寶”上線,標誌着BAT終於在AI消費C端應用領域聚首。

據介紹,自2023年9月首次亮相以來,騰訊混元大模型的參數規模已從千億升級至萬億,預訓練語料從萬億升級至7萬億tokens,並率先升級爲多專家模型結構(MoE),整體性能相比Dense版本提升超50%。

元寶面向工作效率場景,提供AI搜索、AI總結、AI寫作能力;面向日常生活場景,玩法也更加豐富,提供口語陪練、超能翻譯官、百變AI頭像等多個特色AI應用。同時,還新增了創建個人智能體等玩法。

《科創板日報》記者將騰訊元寶與OpenAI最新的GPT-4o以及字節的個人助手豆包App做了一場能力大PK。

▍AI效率工具測試:騰訊元寶的信息抓取和鏈接讀取能力突出

數據顯示,當前人們使用大模型相關產品時,有超過 65%的需求,集中在工作/學習效率場景。針對效率場景的三大核心需求分別爲信息獲取、處理和生產,騰訊元寶均進行了產品化探索。

首先,AI搜索能力比拼。

騰訊元寶和GPT-4o在回答“最近全球AI大模型領域的大事件有哪些”這一問題時,都採用了分類的方式來組織答案。但騰訊元寶提供了24篇時效性強、大多發佈於近一週內的參考文獻,方便用戶快速溯源及延伸閱讀。

據介紹,背靠騰訊生態的強大支持,騰訊元寶有效整合了微信搜一搜、搜狗搜索等多個平台資源,超越了傳統搜索模式。記者點進回答裏的參考文獻鏈接查看,驗證了其內容主要源自微信公衆號等騰訊生態內的高質量資源,以及互聯網上的權威信息源。

image

騰訊元寶回覆結果

GPT-4o雖然也進行了信息分類,但僅提供了6篇參考資料,遠遠少於元寶,且包括了年初的資料,信息的時效性差。因而,騰訊元寶在AI搜索方面具有更強的能力,能夠爲用戶提供更加準確、全面和及時的信息,有效提升內容生成效果。

image

GPT-4o回覆結果

其次,AI總結能力比拼。

從輸入方式來看,元寶可上傳最多10個PDF、word、txt等多種格式的文檔,並能夠一次性解析多個微信公衆號鏈接、網址,支持256K的原生窗口上下文,而GPT-4o雖然也能總結鏈接內容,但是不支持生成國內鏈接的摘要。

image

GPT-4o回覆結果

記者提交了四個微信公衆號文章的鏈接,元寶對每篇文章內容進行了解析,不僅準確區分了各文章的主題要點,還細緻地揭示了文章之間的邏輯聯繫,展現出對複雜信息的整合能力。

image

騰訊元寶AI總結結果

元寶還展現了其敏銳的產品細節,記者上傳了《斯坦福大學:2024年人工智能指數報告》的文件,元寶首先對文檔有一個識別大小和字數進行解析,還貼心地自動填寫了默認提示詞,這是GPT-4o所不具備的功能。值得一提的是,即使是40萬字的文檔,元寶解析的速度也是在幾秒之內,比GPT-4o快。

image

騰訊元寶總結界面

然而,記者在比較GPT-4o和元寶對文檔的解析答案時,觀察到GPT-4o在提供信息的深度和可靠性方面表現得更爲出色。GPT-4o的回覆更爲詳盡和系統化,它不僅在每個主題下提供了分點解答,還引入了具體的數據作爲支撐,使論點更具說服力。相反,元寶的回覆中,觀點拆分得不夠細緻,也缺乏數據信息。

image

騰訊元寶、GPT-4o回覆結果

此外,記者還準備了經濟類、醫學類、邏輯推理類和謎語類題目來比較騰訊元寶和GPT-4o回答問題的準確率和速度。

記者觀察到,儘管元寶和GPT-4o的正確率相同,正確率都是75%,但兩者的答題風格各有千秋。GPT-4o以簡潔、直接和結構化的方式呈現答案,使用數學公式清晰地展示計算過程,迅速傳達結果;而騰訊元寶則側重於解題思路的引導和邏輯性,提供詳盡的步驟和分析,但在效率和直觀性方面可能稍遜一籌。

image

騰訊元寶、GPT-4o回覆結果

最後,文生圖能力比拼。

騰訊元寶和GPT-4o根據古詩“小荷才露尖尖角,早有蜻蜓立上頭”生成的圖片,都包含了詩句中的關鍵元素,如荷花和蜻蜓,較爲準確地捕捉並傳達了詩中的意境。記者發現,元寶的圖片呈現出現代攝影的色彩鮮明特點,而GPT-4o的圖片則更貼近古典畫風,強調了柔和的色彩和意境的表達,更符合古詩所蘊含的古風韻味。

image

騰訊元寶、GPT-4o回覆結果

▍AI應用測試:日常場景下騰訊元寶的趣味與實用性升級

除了滿足效率需要,騰訊元寶的“發現”欄目上線了百變AI頭像、口語陪練、超能翻譯官、AI智能體等多個日常生活場景中特色應用,均免費開放。

image

豆包、文心一言、Kimi等大模型目前均屬於國內第一陣營。2023年9月推出的混元大模型此次捲土重來會帶來驚喜嗎?恐怕還是靠實力說話。

第一,口語陪練服務測試。

記者發現,騰訊元寶通過模擬1V1真實的對話場景,爲用戶的語法和發音打分。更像是一位專屬的私人外教,用戶點擊“怎樣優化”便能收穫個性化的口語指導和改進建議,比較適合那些尋求細緻語法和表達改進的學習用戶,如將“what's”改爲“who's”優化句子語法結構、增加“and why?”使對話更加詳細。

image

元寶口語陪練對話結果

相比之下,豆包通過虛擬卡通外教進行對話練習,界面簡潔有趣,互動性強,能夠提供詳細的信息和背景知識,使對話內容自然且貼近實際生活,不足之處是並沒有明確指出用戶的口語改進意見。

image

豆包口語陪練對話結果

第二,超能翻譯官功能測試。

從輸入方式來看,相比於豆包僅支持文件、語音和文字三種輸入方式,騰訊元寶就比較給力了,不僅支持文件、語音、文字、圖片、鏈接五種輸入方式,還能夠識別十五種主流語言。

記者測試了一篇英語論文的文檔,發現元寶的超級翻譯官功能不僅能高效總結論文中的要點,還有全文翻譯服務,比較適用於學術研究、專業文獻等高要求的翻譯任務。此外,元寶專門設計了沉浸式的閱讀模式,進一步保障了用戶的閱讀體驗,使翻譯內容更加清晰易讀。

image

元寶超能翻譯官對話結果

豆包的翻譯結果與元寶相比顯得遜色,答案冗餘且主旨提煉不夠精練,同時在翻譯速度上不盡如人意,甚至在測試中出現了明顯的延遲問題,影響了用戶體驗的連貫性。

image

豆包翻譯對話結果

第三,百變AI頭像功能測試。

騰訊元寶該功能提供了包括芭比、多巴胺、復古繁花、白領精英等在內的12種獨特風格,用戶可以根據個人喜好選擇不同的風格進行嘗試。

《科創板日報》記者注意到,與垂直AI相機賽道的App相比,騰訊元寶在用戶上傳自拍照片時有限制,僅允許上傳一張圖片,而妙鴨相機允許用戶上傳多光線、多背景、多視角、多表情的自拍照片。此外,元寶的AI頭像功能並未包含近期廣受用戶歡迎的黏土濾鏡、圖生視頻等玩法。

記者測試發現,雖然元寶生成的AI頭像雖然在風格上有所不同,但在細節精細度上未能達到期望水平,顯得相對粗糙。儘管提供了不同的風格選項,這些頭像在個性化塑造上略顯平淡,缺乏獨特辨識元素,面部表情趨於單一,缺乏生動變化。此外,背景設計顯得較爲簡易且重複性高,缺少豐富多樣的細節處理。

image

元寶AI頭像生成結果

字節豆包的頭像創作功能位於發現頁面的繪畫板塊,也採用了多風格生成的概念,採用的文生圖而不是上傳照片。記者輸入“王家衛風格的頭像”關鍵詞後,生成了四幅作品。雖然這些作品嚐試捕捉獨特的文藝氛圍,但是與騰訊元寶出現的問題類似,人物頭像在細節生動性、表情多樣性和背景複雜度上有待加強。而且,生成結果中出現了與關鍵詞如“頭髮長度”“地點”不符的偏差。

image

豆包AI頭像生成結果

最後,AI智能體測試。

騰訊元寶上線了AI智能體的功能,賦予角色設定,智能體可以是讓AI扮演特定角色陪你聊天,也可以是擅長完成特定任務的專家。用戶只要點擊“創建智能體”,然後按照提示輸入名稱、角色設定、簡介、開場白、預置指令,並選擇音色、上傳 logo 即可。或讓AI自動生成智能體相關信息,並復刻自己的音色。

image

元寶AI智能體功能

豆包的智能體功能與文心言相似,也允許創建專屬聲音,同時在聲音選擇方面比元寶更加多元,包括自動推薦、女聲、男聲、角色和口音。

image

豆包AI智能體功能

總的來說,從效率場景工具來看,騰訊元寶擅長快速抓取信息、高效解析鏈接,在處理速度及多格式輸入支持方面具有明顯優勢。更重要的是,通過深度融合公衆號的海量數據資源,比GPT-4o能夠提供時效性更強、更全面的搜索結果,稱得上是一款搜索功能強大、易於使用的AI助手產品。

從日常生活場景工具來看,騰訊元寶在口語陪練、文檔翻譯方面的能力表現略優於字節豆包;共同點是兩者的智能體功能十分相似,並且都在AI圖像的細膩度和創新性方面有明顯的提升空間。

大模型應用市場仍在快速發展期,伴隨着國內外AI產品更多玩家“參戰”,消費端市場將迎來更多智能化、高效率的產品和服務,未來大模型App競爭或將進入一個更加激烈的新階段。

長江證券研報稱,建議持續關注AI在廣告、電商、影視、遊戲和教育等各領域的商業化落地。

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論