share_log

一次曝9个大模型,「字节 AI」这一年都在做什么?

一次曝9個大模型,「字節 AI」這一年都在做什麼?

極客公園 ·  05/16 12:50

來源:極客公園 作者:宛辰

整個 2023 年,字節並沒有對外官宣其內部自研的大模型。外界一度認爲,大模型這一技術變革,字節入場晚了。梁汝波在去年底的年會上也提到了這一點,他表示「字節對技術的敏感度不如創業公司,直到 2023 年才開始討論 GPT。」

儘管如此,字節做大模型和 AI 應用的消息不斷。

2023 年 8 月 31 日,國內首批大模型產品通過《生成式人工智能服務管理暫行辦法》備案,字節跳動雲雀大模型赫然在列。同一時間,字節被爆出成立了新 AI 部門——Flow,聚集了字節集團最能打的一批人才探索 AI 應用。過去大半年,字節跳動推出的 AI 應用幾乎涵蓋了所有熱門賽道,豆包、釦子是最具代表性的兩款

5 月 15 日,在火山引擎原動力大會上,字節跳動首次揭開了上述自研大模型和 AI 應用神祕面紗的一角:豆包大模型(原雲雀大模型)家族首次亮相,其大模型產品——「豆包 App」和 AI 應用產品——「釦子」也首次對外詳細闡述。

火山引擎是字節跳動旗下雲服務平台,據火山引擎總裁譚待介紹,經過一年時間的迭代和市場驗證,字節自研大模型——豆包大模型(原雲雀大模型)正成爲國內使用量最大、應用場景最豐富的大模型之一,目前日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。

就豆包大模型而言,模型推理價格成爲一大亮點,這也是近兩週以來模型廠商重點發力傳播的方向。譚待表示,大模型從以分計價到以厘計價,將助力企業以更低成本加速業務創新。

當前,豆包大模型大幅降低了模型推理的單位成本,其主力模型在企業市場的定價只有 0.0008 元/千 Tokens,0.8 厘就能處理 1500 多個漢字,比行業便宜 99.3%。

除了模型產品本身,更值得關注的是:字節跳動對大模型和 AI 產品的思考。

  • 豆包大模型家族的成員,爲什麼當前有這九個?

  • 模型產品「豆包 APP」、應用產品「釦子」作爲字節跳動當前最主力的兩款應用,背後是怎麼思考的?

  • 火山引擎作爲雲平台,在新時代的「野心」是什麼?

在這場發佈會上,這些問題也都得到了回應。

01、9個模型,豆包大模型家族首次亮相 

今年的 AI 發佈會,大模型廠商都不再只聚焦在基座大模型本身,而是模型、工具、應用全面推出。顯然,大模型落地,更進一步。

字節跳動也是如此,在火山引擎原動力發佈會上,正式發佈了字節跳動豆包大模型家族、火山方舟 2.0、AI 應用及 AI 雲基礎設施等一系列最新產品。

先來看模型,當前大模型行業的兩大進化方向分別是價格和性能:模型推理價格進一步降低,模型性能進一步提升。在這兩個方向上,豆包大模型家族,有自己的特點。

火山引擎方面稱,在模型價格上,豆包主力模型在企業市場的定價是 0.0008 元/千 tokens,0.8 厘就能處理 1,500 多個漢字,比行業便宜 99.3%。

譚待認爲,降低成本是推動大模型快進到「價值創造階段」的一個關鍵因素。在被問及「把價格壓得這麼低,是否虧錢補貼」時,譚待稱,「ToB 業務虧損換收入不可持續,火山引擎從來不走這條路。能做到降低推理價格,有一系列技術手段,未來還能做得更好」,比如優化模型結構和工程手段上通過分佈式推理來替代單機推理。

在模型性能上,「豆包大模型家族」根據市場需求,帶着 9 個模型亮相,主要包括通用模型 pro、通用模型 lite、語音識別模型、語音合成模型、文生圖模型等九款模型。

當前階段之所以收斂到這九個大模型,字節跳動根據後臺模型調用量和需求而來。

譚待向極客公園表示,首先要有一個最強的主力模型,能支持高級功能;其次是分場景或者端側對低延遲要求很高,所以也需要豆包 lite;也需要性能和低延遲折中的模型;還有一些大的垂直場景裏的模型,比如娛樂產品角色扮演,「大概率不需要它編程,但需要加強互動娛樂性」。

豆包大模型家族|圖片來源:字節跳動
豆包大模型家族|圖片來源:字節跳動
  • 豆包通用模型 pro:字節跳動自研 LLM 模型專業版,支持 128k 長文本,全系列可精調,具備更強的理解、生成、邏輯等綜合能力,適配問答、總結、創作、分類等豐富場景;

  • 豆包通用模型 lite:字節跳動自研 LLM 模型輕量版,對比專業版提供更低 token 成本、更低延遲,爲企業提供靈活經濟的模型選擇;

  • 豆包·角色扮演模型:個性化的角色創作能力,更強的上下文感知和劇情推動能力,滿足靈活的角色扮演需求;

  • 豆包·語音合成模型:提供自然生動的語音合成能力,善於表達多種情緒,演繹多種場景;

  • 豆包·聲音復刻模型:5 秒即可實現聲音 1:1 克隆,對音色相似度和自然度進行高度還原,支持聲音的跨語種遷移;

  • 豆包·語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別;

  • 豆包·文生圖模型:更精準的文字理解能力,圖文匹配更準確,畫面效果更優美,擅長對中國文化元素的創作;

  • 豆包·Function call 模型:提供更加準確的功能識別和參數抽取能力,適合複雜工具調用的場景;

  • 豆包·向量化模型:聚焦向量檢索的使用場景,爲 LLM 知識庫提供核心理解能力,支持多語言。

對於今天發佈的豆包大模型家族,一位投資人認爲,「字節不強調參數、不強調數據和語料,直接把模型能力在場景裏做了垂直細分,這個決策因素是有應用和沒有應用的區別,更本質的是有數據和沒數據的區別。有用戶反饋、有數據反饋,字節能夠根據用戶和數據的反饋去做更精準的場景和服務。」

就像移動互聯網時代跑通的今日頭條和抖音,字節在 AI 上,也是是數據邏輯,根據不同的數據鏈反饋,決定產品或者模型的下一步動作。相反,如果只做基礎模型,不做服務升級,場景反饋、用戶數據反饋會越來越少,模型能力的差別就會拉開。

02、豆包,如何承載「App 工廠」的大模型產品思路 

其實早在去年,豆包大模型(原名:雲雀)就在字節跳動內部完成了上線,其內部 50 多個業務也已經大量使用豆包大模型進行 AI 創新,包括抖音、番茄小說、飛書、巨量引擎等,用以提升效率和優化產品體驗。

字節跳動也基於豆包大模型打造了一系列 AI 原生應用,包括 AI 對話助手「豆包」、AI 應用開發平台「釦子」、互動娛樂應用「貓箱」,以及星繪、即夢等 AI 創作工具。

其中,豆包和「釦子」,是字節跳動發力的主要產品。

根據 QuestMobile,基於豆包大模型同名打造的豆包 App,在蘋果 App Store 和各大安卓應用市場,豆包 App 的下載量在 AIGC 類應用中排名第一。根據官方最新數據,豆包上已有超過 800 萬個智能體被創建,月度活躍用戶達到 2600 萬。

字節跳動產品和戰略副總裁 朱駿|圖片來源:火山引擎
字節跳動產品和戰略副總裁 朱駿|圖片來源:火山引擎

發佈會上,字節產品戰略負責人、Flow 部門朱駿,以豆包 App 爲例,首次講述了字節做 AI 原生應用的產品思路。他認爲,和 AI 時代之前做產品設計比較,現在用戶核心的需求沒有改變,包括高效獲取信息、工作提效、自我表達、社交娛樂等等。

差異點是,以前是在成熟的技術上想應用,只要用同理心去理解用戶的需求和使用體驗,就能做出一個還不錯的產品。現在產品底下的技術不再是一個穩定的地基,大模型的能力在很多維度還有缺陷,同時又在快速演進,每隔三個月、半年都會發生很大的變化,甚至不是線性的漸進變化,而是突然躍遷。

因此,他認爲做大模型應用一個很大的挑戰是,在這個動態發展的過程中,先判斷大模型現在能解決好什麼任務,同時更重要的是要嘗試預測半年、一年後大模型能把什麼樣的任務解決好

以豆包 App 爲例,他分享了字節對做大模型應用的思考。

擬人化

朱駿稱,豆包的第一條產品設計原則是「擬人化」,這是大模型產品的新特性,自然語言新的交互方式,降低了使用門檻,也讓用戶在使用產品時感覺到產品有類似人的溫度。爲了體現這種擬人的感受,該款 APP 產品名字選用了「豆包」這樣像親密朋友日常稱呼的暱稱。

離用戶近

豆包的第二條設計原則,離用戶近。它要能隨時伴隨用戶,嵌入用戶的不同使用環境。「豆包到用戶身邊,而不是用戶到豆包身邊」。

一個例子在於語音交互入口的設計。爲了讓豆包在這種移動場景(比如戶外)裏交互更方便,像一個隨身攜帶的百事通,字節很早投入了很大力度優化語音交互體驗,包括基於大模型的 ASR 和超自然的 TTS 音色,儘量做到類似和一個真人對話的感受。豆包幾乎是國內最早確立語音交互入口作爲默認交互界面的大廠,後來語音交互入口也被加入了市面上其他大模型 APP。

個性化

第三個設計原則是「個性化」。雖然通用大模型能解決非常廣泛的任務,但實際上,用戶有自己個性化的需求,包括對智能體的功能定位,回答風格、聲音、形象、記憶都有非常個性化的需求。

朱駿認爲,未來用戶大概率會有一個主要的智能體(比如豆包)做最高頻的互動,解決很多任務;但是也會因爲個性化、多樣化的需要,和很多其他的智能體互動。

他總結稱,「做大模型產品的挑戰和樂趣是,需要在這種持續動態的技術發展中,不斷去判斷下一個產品的 PMF(產品市場匹配點)可能是什麼。」

03、模型落地,火山引擎的基礎設施 

除了豆包大模型家族和字節的 AI 應用產品思路,在火山引擎發佈會的主場上,大模型服務平台「火山方舟」也升級了多款插件和數據、營銷、銷售等 AI 應用服務。

在插件和工具鏈上,方舟 2.0 升級了聯網插件,提供頭條抖音同款搜索能力;升級內容插件,提供頭條抖音同源海量內容;升級知識庫插件,以提高搜索的相關性和準確性。

同時,火山方舟 2.0 也全面升級了底層基礎設施。在系統承載力上,提供充沛的 GPU 算力資源,分鐘級千卡擴縮容的超強彈性,保障業務穩定和成本可控;在安全防護上,通過安全沙箱構建可信的執行環境,多維度的安全架構,保障數據安全;此外,火山引擎提供專業的算法團隊服務,幫助客戶釋放獨有數據價值,落地大模型應用。

此外,針對大模型帶來的基於自然語言的應用開發模式,火山引擎也推出了新一代 AI 應用開發平台——釦子專業版。

釦子產品經理潘宇揚介紹,釦子(coze)作爲字節跳動推出的新一代 AI 應用開發平台,具備低門檻、個性化、實時性、多模態等優勢,並集合海量的 AI 資源、豐富的發佈 API 服務。

對於釦子,譚待認爲「必須要一個釦子這樣的低代碼生態,應用的生態是一堆人的群體智慧,要能夠讓很多人以很低門檻做各種事情(AI 應用)。」

編輯/lambor

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論