share_log

大模型时代的数据底座怎么建 | ToB产业观察

大模型時代的數據底座怎麼建 | ToB產業觀察

鈦媒體 ·  05/11 11:01

大模型的生產需要數據底座的支撐,因爲只有高質量、高密度的數據去訓練模型,才有可能得到更精準的生成效果。就當前而言,訓練一個500T參數的模型,使用的訓練數據已經達到16.6PB,如果一本書按500KB算,相當於332億本的數據量。這是什麼概念?好比說現存每個人類擁有4本書的量級。

但問題是,使用大量互聯網上公開數據集,僅在數據清洗環節就提出極大挑戰,被精煉的高質量數據正如石油一樣,非常珍貴。鈦媒體APP注意到,目前不少模型提供方,已經在特定領域使用合成數據用於模型訓練,其原理是希望能夠基於大模型自動生成高質量數據集。而這只是一方面。

目前數據量的暴漲,還要求使用各種技術手段實現數據的預訓練和微調,數據智能應用場景下,對大數據平台的管理水平和安全能力要求提升,這對於基於雲服務應用的企業而言,挑戰的複雜性會更爲明顯。

在媒體溝通會上,亞馬遜雲科技探討了數據在生成式AI時代的重要性及挑戰,從三個層面分析企業想要構建數據底座,可參考的解決方案和路徑。鈦媒體摘錄了一些關鍵要點,如下:企業構建數據底座過程中,往往會通過三類方式進行基礎模型的數據定製,以適應不同應用場景,分別是:檢索增強生成(Retrieval-Augmented Generation,RAG)、微調和持續預訓練。RAG、微調和持續預訓練需要的數據規模、數據來源和技術要求各不相同。例如,RAG需要GB級企業數據,微調需要GB級人工標的高質量數據,持續預訓練則需要TB級未標的原始數據。RAG的數據來源是企業內部文檔庫、數據庫、數據倉庫、知識圖譜;微調數據來源爲私域知識;持續預訓練數據來源爲公開的數據集或企業各部門的數據。企業構建數據底座面臨三類挑戰:一是在模型微調和預訓練階段,將海量原始數據轉化爲高質量的大數據集,對存儲、清洗、治理的挑戰;二是快速獲取專有數據的挑戰;三是基礎模型頻繁調用將會導致成本的增加和響應的延遲的挑戰。企業構建數據底座也應從上述三類挑戰入手:一是找到合適的存儲來承載海量數據;清洗加工原始數據爲高質量數據集;對整個組織內數據的發現編目治理;二是利用RAG將專有數據提供給基礎模型;三是通過將之前問答生成的新數據存入緩存,從而在面對類似問題時,可以不調用模型,而直接通過緩存給出回答,這不但能夠減少模型調用,還可以節約成本。

亞馬遜雲科技大中華區數據分析與生成式AI產品總監崔瑋在交流中告訴鈦媒體APP,從前端模型的使用來看,Amazon Bedrock提供了一個平台開放給客戶,讓客戶自己選擇適合自身業務場景的模型。同樣在後端,無論是數據分析工具,還是數據庫,都是希望通過提供一套最合適的產品和服務,讓用戶在任何一個應用,任何一個數據存儲的環境,都可以通過向量化能力,對接到企業客戶的不同業務場景中。

在數據存儲方面,擴展性和響應速度是關鍵。Amazon S3對象存儲,支持廣泛的數據協議,應對各種數據類型,還支持智能分層以降低訓練成本。Amazon FSx for Lustre文件存儲服務,提供亞毫秒延遲和數百萬IOPS的吞吐性能,能夠進一步加快模型優化的速度。

在數據清洗方面,企業面臨着繁重的數據清洗加工任務。Amazon EMR serverless採用無服務器架構,幫助企業運行任何規模的分析工作負載,自動擴展功能可在幾秒鐘內調整資源大小,以滿足不斷變化的數據量和處理要求。Amazon Glue是一個簡單可擴展的無服務器數據集成服務,可快速完成微調或預訓練模型的數據準備工作。

在數據治理方面,企業難以在多個賬戶和區域中查找數據,也缺乏有效的數據治理工具。Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據,不但能夠爲多源多模態數據進行有效編目和治理,還提供簡單易用的統一數據管理平台和工具。

利用RAG技術將專有數據提供給基礎模型。將向量搜索的支持功能加入到主流的數據服務中,通過將數據和向量存儲在一起來提升數據查詢性能。Amazon Neptune圖數據庫推出分析數據庫引擎,以結合圖數據庫與大模型的優勢,從而能夠快速從圖形數據中獲取洞察,並進行更快的向量搜索。

在提升模型調用效率方面。Amazon Memory DB內存數據庫通過緩存之前問答生成的新數據,實現對類似問題的快速響應和準確回答,同時有效降低基礎模型的調用頻率。此外,亞馬遜雲科技還將無服務器數據庫服務和Amazon OpenSearch Serverless用於向量搜索。

正如亞馬遜雲科技大中華區產品部總經理陳曉建所言,“企業需要的是懂業務、懂用戶的生成式AI應用,而打造這樣的應用需要從數據做起。”

例如,北京靈奧科技是一家大模型中間件領域創企。在此之前,北京靈奧科技就已經將整個平台搭建在亞馬遜科技之上,使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎雲服務和數據存儲產品,以及基於Amazon Bedrock提供的Claude模型,用於構建Vanus平台的AI Agent助手。

在服務一家南美州服飾類電商企業的過程中,Vanus爲Shopify電商客戶構建了客服類Agent VanChat。數據顯示,通過VanChat提供的用戶意圖識別、產品推薦等功能加速用戶產品購買,提升網站的銷售額。VanChat爲該客戶帶來快速的營收增長,僅上線首月ROI高達611%。

從最近的動作來看,擅長從客戶需求視角倒推產品,亞馬遜雲科技已將上述提及的能力抽象爲部分產品方案開放出來。(本文首發於鈦媒體APP, 作者|楊麗,編輯 | 蓋虹達)

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論