來源:極客公園 作者:宛辰
整個 2023 年,字節並沒有對外官宣其內部自研的大模型。外界一度認爲,大模型這一技術變革,字節入場晚了。梁汝波在去年底的年會上也提到了這一點,他表示「字節對技術的敏感度不如創業公司,直到 2023 年才開始討論 GPT。」
儘管如此,字節做大模型和 AI 應用的消息不斷。
2023 年 8 月 31 日,國內首批大模型產品通過《生成式人工智能服務管理暫行辦法》備案,字節跳動雲雀大模型赫然在列。同一時間,字節被爆出成立了新 AI 部門——Flow,聚集了字節集團最能打的一批人才探索 AI 應用。過去大半年,字節跳動推出的 AI 應用幾乎涵蓋了所有熱門賽道,豆包、釦子是最具代表性的兩款。
5 月 15 日,在火山引擎原動力大會上,字節跳動首次揭開了上述自研大模型和 AI 應用神祕面紗的一角:豆包大模型(原雲雀大模型)家族首次亮相,其大模型產品——「豆包 App」和 AI 應用產品——「釦子」也首次對外詳細闡述。
火山引擎是字節跳動旗下雲服務平台,據火山引擎總裁譚待介紹,經過一年時間的迭代和市場驗證,字節自研大模型——豆包大模型(原雲雀大模型)正成爲國內使用量最大、應用場景最豐富的大模型之一,目前日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。
就豆包大模型而言,模型推理價格成爲一大亮點,這也是近兩週以來模型廠商重點發力傳播的方向。譚待表示,大模型從以分計價到以厘計價,將助力企業以更低成本加速業務創新。
當前,豆包大模型大幅降低了模型推理的單位成本,其主力模型在企業市場的定價只有 0.0008 元/千 Tokens,0.8 厘就能處理 1500 多個漢字,比行業便宜 99.3%。
除了模型產品本身,更值得關注的是:字節跳動對大模型和 AI 產品的思考。
豆包大模型家族的成員,爲什麼當前有這九個?
模型產品「豆包 APP」、應用產品「釦子」作爲字節跳動當前最主力的兩款應用,背後是怎麼思考的?
火山引擎作爲雲平台,在新時代的「野心」是什麼?
在這場發佈會上,這些問題也都得到了回應。
01、9個模型,豆包大模型家族首次亮相
今年的 AI 發佈會,大模型廠商都不再只聚焦在基座大模型本身,而是模型、工具、應用全面推出。顯然,大模型落地,更進一步。
字節跳動也是如此,在火山引擎原動力發佈會上,正式發佈了字節跳動豆包大模型家族、火山方舟 2.0、AI 應用及 AI 雲基礎設施等一系列最新產品。
先來看模型,當前大模型行業的兩大進化方向分別是價格和性能:模型推理價格進一步降低,模型性能進一步提升。在這兩個方向上,豆包大模型家族,有自己的特點。
火山引擎方面稱,在模型價格上,豆包主力模型在企業市場的定價是 0.0008 元/千 tokens,0.8 厘就能處理 1,500 多個漢字,比行業便宜 99.3%。
譚待認爲,降低成本是推動大模型快進到「價值創造階段」的一個關鍵因素。在被問及「把價格壓得這麼低,是否虧錢補貼」時,譚待稱,「ToB 業務虧損換收入不可持續,火山引擎從來不走這條路。能做到降低推理價格,有一系列技術手段,未來還能做得更好」,比如優化模型結構和工程手段上通過分佈式推理來替代單機推理。
在模型性能上,「豆包大模型家族」根據市場需求,帶着 9 個模型亮相,主要包括通用模型 pro、通用模型 lite、語音識別模型、語音合成模型、文生圖模型等九款模型。
當前階段之所以收斂到這九個大模型,字節跳動根據後臺模型調用量和需求而來。
譚待向極客公園表示,首先要有一個最強的主力模型,能支持高級功能;其次是分場景或者端側對低延遲要求很高,所以也需要豆包 lite;也需要性能和低延遲折中的模型;還有一些大的垂直場景裏的模型,比如娛樂產品角色扮演,「大概率不需要它編程,但需要加強互動娛樂性」。
豆包通用模型 pro:字節跳動自研 LLM 模型專業版,支持 128k 長文本,全系列可精調,具備更強的理解、生成、邏輯等綜合能力,適配問答、總結、創作、分類等豐富場景;
豆包通用模型 lite:字節跳動自研 LLM 模型輕量版,對比專業版提供更低 token 成本、更低延遲,爲企業提供靈活經濟的模型選擇;
豆包·角色扮演模型:個性化的角色創作能力,更強的上下文感知和劇情推動能力,滿足靈活的角色扮演需求;
豆包·語音合成模型:提供自然生動的語音合成能力,善於表達多種情緒,演繹多種場景;
豆包·聲音復刻模型:5 秒即可實現聲音 1:1 克隆,對音色相似度和自然度進行高度還原,支持聲音的跨語種遷移;
豆包·語音識別模型:更高的準確率及靈敏度,更低的語音識別延遲,支持多語種的正確識別;
豆包·文生圖模型:更精準的文字理解能力,圖文匹配更準確,畫面效果更優美,擅長對中國文化元素的創作;
豆包·Function call 模型:提供更加準確的功能識別和參數抽取能力,適合複雜工具調用的場景;
豆包·向量化模型:聚焦向量檢索的使用場景,爲 LLM 知識庫提供核心理解能力,支持多語言。
對於今天發佈的豆包大模型家族,一位投資人認爲,「字節不強調參數、不強調數據和語料,直接把模型能力在場景裏做了垂直細分,這個決策因素是有應用和沒有應用的區別,更本質的是有數據和沒數據的區別。有用戶反饋、有數據反饋,字節能夠根據用戶和數據的反饋去做更精準的場景和服務。」
就像移動互聯網時代跑通的今日頭條和抖音,字節在 AI 上,也是是數據邏輯,根據不同的數據鏈反饋,決定產品或者模型的下一步動作。相反,如果只做基礎模型,不做服務升級,場景反饋、用戶數據反饋會越來越少,模型能力的差別就會拉開。
02、豆包,如何承載「App 工廠」的大模型產品思路
其實早在去年,豆包大模型(原名:雲雀)就在字節跳動內部完成了上線,其內部 50 多個業務也已經大量使用豆包大模型進行 AI 創新,包括抖音、番茄小說、飛書、巨量引擎等,用以提升效率和優化產品體驗。
字節跳動也基於豆包大模型打造了一系列 AI 原生應用,包括 AI 對話助手「豆包」、AI 應用開發平台「釦子」、互動娛樂應用「貓箱」,以及星繪、即夢等 AI 創作工具。
其中,豆包和「釦子」,是字節跳動發力的主要產品。
根據 QuestMobile,基於豆包大模型同名打造的豆包 App,在蘋果 App Store 和各大安卓應用市場,豆包 App 的下載量在 AIGC 類應用中排名第一。根據官方最新數據,豆包上已有超過 800 萬個智能體被創建,月度活躍用戶達到 2600 萬。
發佈會上,字節產品戰略負責人、Flow 部門朱駿,以豆包 App 爲例,首次講述了字節做 AI 原生應用的產品思路。他認爲,和 AI 時代之前做產品設計比較,現在用戶核心的需求沒有改變,包括高效獲取信息、工作提效、自我表達、社交娛樂等等。
差異點是,以前是在成熟的技術上想應用,只要用同理心去理解用戶的需求和使用體驗,就能做出一個還不錯的產品。現在產品底下的技術不再是一個穩定的地基,大模型的能力在很多維度還有缺陷,同時又在快速演進,每隔三個月、半年都會發生很大的變化,甚至不是線性的漸進變化,而是突然躍遷。
因此,他認爲做大模型應用一個很大的挑戰是,在這個動態發展的過程中,先判斷大模型現在能解決好什麼任務,同時更重要的是要嘗試預測半年、一年後大模型能把什麼樣的任務解決好。
以豆包 App 爲例,他分享了字節對做大模型應用的思考。
擬人化
朱駿稱,豆包的第一條產品設計原則是「擬人化」,這是大模型產品的新特性,自然語言新的交互方式,降低了使用門檻,也讓用戶在使用產品時感覺到產品有類似人的溫度。爲了體現這種擬人的感受,該款 APP 產品名字選用了「豆包」這樣像親密朋友日常稱呼的暱稱。
離用戶近
豆包的第二條設計原則,離用戶近。它要能隨時伴隨用戶,嵌入用戶的不同使用環境。「豆包到用戶身邊,而不是用戶到豆包身邊」。
一個例子在於語音交互入口的設計。爲了讓豆包在這種移動場景(比如戶外)裏交互更方便,像一個隨身攜帶的百事通,字節很早投入了很大力度優化語音交互體驗,包括基於大模型的 ASR 和超自然的 TTS 音色,儘量做到類似和一個真人對話的感受。豆包幾乎是國內最早確立語音交互入口作爲默認交互界面的大廠,後來語音交互入口也被加入了市面上其他大模型 APP。
個性化
第三個設計原則是「個性化」。雖然通用大模型能解決非常廣泛的任務,但實際上,用戶有自己個性化的需求,包括對智能體的功能定位,回答風格、聲音、形象、記憶都有非常個性化的需求。
朱駿認爲,未來用戶大概率會有一個主要的智能體(比如豆包)做最高頻的互動,解決很多任務;但是也會因爲個性化、多樣化的需要,和很多其他的智能體互動。
他總結稱,「做大模型產品的挑戰和樂趣是,需要在這種持續動態的技術發展中,不斷去判斷下一個產品的 PMF(產品市場匹配點)可能是什麼。」
03、模型落地,火山引擎的基礎設施
除了豆包大模型家族和字節的 AI 應用產品思路,在火山引擎發佈會的主場上,大模型服務平台「火山方舟」也升級了多款插件和數據、營銷、銷售等 AI 應用服務。
在插件和工具鏈上,方舟 2.0 升級了聯網插件,提供頭條抖音同款搜索能力;升級內容插件,提供頭條抖音同源海量內容;升級知識庫插件,以提高搜索的相關性和準確性。
同時,火山方舟 2.0 也全面升級了底層基礎設施。在系統承載力上,提供充沛的 GPU 算力資源,分鐘級千卡擴縮容的超強彈性,保障業務穩定和成本可控;在安全防護上,通過安全沙箱構建可信的執行環境,多維度的安全架構,保障數據安全;此外,火山引擎提供專業的算法團隊服務,幫助客戶釋放獨有數據價值,落地大模型應用。
此外,針對大模型帶來的基於自然語言的應用開發模式,火山引擎也推出了新一代 AI 應用開發平台——釦子專業版。
釦子產品經理潘宇揚介紹,釦子(coze)作爲字節跳動推出的新一代 AI 應用開發平台,具備低門檻、個性化、實時性、多模態等優勢,並集合海量的 AI 資源、豐富的發佈 API 服務。
對於釦子,譚待認爲「必須要一個釦子這樣的低代碼生態,應用的生態是一堆人的群體智慧,要能夠讓很多人以很低門檻做各種事情(AI 應用)。」
編輯/lambor