大模型時代的數據底座怎麼建 | ToB產業觀察

鈦媒體 · 05/11 11:01

大模型的生产需要数据底座的支撑，因为只有高质量、高密度的数据去训练模型，才有可能得到更精准的生成效果。就当前而言，训练一个500T参数的模型，使用的训练数据已经达到16.6PB，如果一本书按500KB算，相当于332亿本的数据量。这是什么概念？好比说现存每个人类拥有4本书的量级。

但问题是，使用大量互联网上公开数据集，仅在数据清洗环节就提出极大挑战，被精炼的高质量数据正如石油一样，非常珍贵。钛媒体APP注意到，目前不少模型提供方，已经在特定领域使用合成数据用于模型训练，其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。

目前数据量的暴涨，还要求使用各种技术手段实现数据的预训练和微调，数据智能应用场景下，对大数据平台的管理水平和安全能力要求提升，这对于基于云服务应用的企业而言，挑战的复杂性会更为明显。

在媒体沟通会上，亚马逊云科技探讨了数据在生成式AI时代的重要性及挑战，从三个层面分析企业想要构建数据底座，可参考的解决方案和路径。钛媒体摘录了一些关键要点，如下：企业构建数据底座过程中，往往会通过三类方式进行基础模型的数据定制，以适应不同应用场景，分别是：检索增强生成（Retrieval-Augmented Generation，RAG）、微调和持续预训练。RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。例如，RAG需要GB级企业数据，微调需要GB级人工标的高质量数据，持续预训练则需要TB级未标的原始数据。RAG的数据来源是企业内部文档库、数据库、数据仓库、知识图谱；微调数据来源为私域知识；持续预训练数据来源为公开的数据集或企业各部门的数据。企业构建数据底座面临三类挑战：一是在模型微调和预训练阶段，将海量原始数据转化为高质量的大数据集，对存储、清洗、治理的挑战；二是快速获取专有数据的挑战；三是基础模型频繁调用将会导致成本的增加和响应的延迟的挑战。企业构建数据底座也应从上述三类挑战入手：一是找到合适的存储来承载海量数据；清洗加工原始数据为高质量数据集；对整个组织内数据的发现编目治理；二是利用RAG将专有数据提供给基础模型；三是通过将之前问答生成的新数据存入缓存，从而在面对类似问题时，可以不调用模型，而直接通过缓存给出回答，这不但能够减少模型调用，还可以节约成本。

亚马逊云科技大中华区数据分析与生成式AI产品总监崔玮在交流中告诉钛媒体APP，从前端模型的使用来看，Amazon Bedrock提供了一个平台开放给客户，让客户自己选择适合自身业务场景的模型。同样在后端，无论是数据分析工具，还是数据库，都是希望通过提供一套最合适的产品和服务，让用户在任何一个应用，任何一个数据存储的环境，都可以通过向量化能力，对接到企业客户的不同业务场景中。

在数据存储方面，扩展性和响应速度是关键。Amazon S3对象存储，支持广泛的数据协议，应对各种数据类型，还支持智能分层以降低训练成本。Amazon FSx for Lustre文件存储服务，提供亚毫秒延迟和数百万IOPS的吞吐性能，能够进一步加快模型优化的速度。

在数据清洗方面，企业面临着繁重的数据清洗加工任务。Amazon EMR serverless采用无服务器架构，帮助企业运行任何规模的分析工作负载，自动扩展功能可在几秒钟内调整资源大小，以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务，可快速完成微调或预训练模型的数据准备工作。

在数据治理方面，企业难以在多个账户和区域中查找数据，也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据，不但能够为多源多模态数据进行有效编目和治理，还提供简单易用的统一数据管理平台和工具。

利用RAG技术将专有数据提供给基础模型。将向量搜索的支持功能加入到主流的数据服务中，通过将数据和向量存储在一起来提升数据查询性能。Amazon Neptune图数据库推出分析数据库引擎，以结合图数据库与大模型的优势，从而能够快速从图形数据中获取洞察，并进行更快的向量搜索。

在提升模型调用效率方面。Amazon Memory DB内存数据库通过缓存之前问答生成的新数据，实现对类似问题的快速响应和准确回答，同时有效降低基础模型的调用频率。此外，亚马逊云科技还将无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索。

正如亚马逊云科技大中华区产品部总经理陈晓建所言，“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”

例如，北京灵奥科技是一家大模型中间件领域创企。在此之前，北京灵奥科技就已经将整个平台搭建在亚马逊科技之上，使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基础云服务和数据存储产品，以及基于Amazon Bedrock提供的Claude模型，用于构建Vanus平台的AI Agent助手。

在服务一家南美州服饰类电商企业的过程中，Vanus为Shopify电商客户构建了客服类Agent VanChat。数据显示，通过VanChat提供的用户意图识别、产品推荐等功能加速用户产品购买，提升网站的销售额。VanChat为该客户带来快速的营收增长，仅上线首月ROI高达611%。

从最近的动作来看，擅长从客户需求视角倒推产品，亚马逊云科技已将上述提及的能力抽象为部分产品方案开放出来。（本文首发于钛媒体APP，作者｜杨丽，编辑 | 盖虹达）

大模型的生產需要數據底座的支撐，因爲只有高質量、高密度的數據去訓練模型，才有可能得到更精準的生成效果。就當前而言，訓練一個500T參數的模型，使用的訓練數據已經達到16.6PB，如果一本書按500KB算，相當於332億本的數據量。這是什麼概念？好比說現存每個人類擁有4本書的量級。

但問題是，使用大量互聯網上公開數據集，僅在數據清洗環節就提出極大挑戰，被精煉的高質量數據正如石油一樣，非常珍貴。鈦媒體APP注意到，目前不少模型提供方，已經在特定領域使用合成數據用於模型訓練，其原理是希望能夠基於大模型自動生成高質量數據集。而這只是一方面。

目前數據量的暴漲，還要求使用各種技術手段實現數據的預訓練和微調，數據智能應用場景下，對大數據平台的管理水平和安全能力要求提升，這對於基於雲服務應用的企業而言，挑戰的複雜性會更爲明顯。

在媒體溝通會上，亞馬遜雲科技探討了數據在生成式AI時代的重要性及挑戰，從三個層面分析企業想要構建數據底座，可參考的解決方案和路徑。鈦媒體摘錄了一些關鍵要點，如下：企業構建數據底座過程中，往往會通過三類方式進行基礎模型的數據定製，以適應不同應用場景，分別是：檢索增強生成（Retrieval-Augmented Generation，RAG）、微調和持續預訓練。RAG、微調和持續預訓練需要的數據規模、數據來源和技術要求各不相同。例如，RAG需要GB級企業數據，微調需要GB級人工標的高質量數據，持續預訓練則需要TB級未標的原始數據。RAG的數據來源是企業內部文檔庫、數據庫、數據倉庫、知識圖譜；微調數據來源爲私域知識；持續預訓練數據來源爲公開的數據集或企業各部門的數據。企業構建數據底座面臨三類挑戰：一是在模型微調和預訓練階段，將海量原始數據轉化爲高質量的大數據集，對存儲、清洗、治理的挑戰；二是快速獲取專有數據的挑戰；三是基礎模型頻繁調用將會導致成本的增加和響應的延遲的挑戰。企業構建數據底座也應從上述三類挑戰入手：一是找到合適的存儲來承載海量數據；清洗加工原始數據爲高質量數據集；對整個組織內數據的發現編目治理；二是利用RAG將專有數據提供給基礎模型；三是通過將之前問答生成的新數據存入緩存，從而在面對類似問題時，可以不調用模型，而直接通過緩存給出回答，這不但能夠減少模型調用，還可以節約成本。

亞馬遜雲科技大中華區數據分析與生成式AI產品總監崔瑋在交流中告訴鈦媒體APP，從前端模型的使用來看，Amazon Bedrock提供了一個平台開放給客戶，讓客戶自己選擇適合自身業務場景的模型。同樣在後端，無論是數據分析工具，還是數據庫，都是希望通過提供一套最合適的產品和服務，讓用戶在任何一個應用，任何一個數據存儲的環境，都可以通過向量化能力，對接到企業客戶的不同業務場景中。

在數據存儲方面，擴展性和響應速度是關鍵。Amazon S3對象存儲，支持廣泛的數據協議，應對各種數據類型，還支持智能分層以降低訓練成本。Amazon FSx for Lustre文件存儲服務，提供亞毫秒延遲和數百萬IOPS的吞吐性能，能夠進一步加快模型優化的速度。

在數據清洗方面，企業面臨着繁重的數據清洗加工任務。Amazon EMR serverless採用無服務器架構，幫助企業運行任何規模的分析工作負載，自動擴展功能可在幾秒鐘內調整資源大小，以滿足不斷變化的數據量和處理要求。Amazon Glue是一個簡單可擴展的無服務器數據集成服務，可快速完成微調或預訓練模型的數據準備工作。

在數據治理方面，企業難以在多個賬戶和區域中查找數據，也缺乏有效的數據治理工具。Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據，不但能夠爲多源多模態數據進行有效編目和治理，還提供簡單易用的統一數據管理平台和工具。

利用RAG技術將專有數據提供給基礎模型。將向量搜索的支持功能加入到主流的數據服務中，通過將數據和向量存儲在一起來提升數據查詢性能。Amazon Neptune圖數據庫推出分析數據庫引擎，以結合圖數據庫與大模型的優勢，從而能夠快速從圖形數據中獲取洞察，並進行更快的向量搜索。

在提升模型調用效率方面。Amazon Memory DB內存數據庫通過緩存之前問答生成的新數據，實現對類似問題的快速響應和準確回答，同時有效降低基礎模型的調用頻率。此外，亞馬遜雲科技還將無服務器數據庫服務和Amazon OpenSearch Serverless用於向量搜索。

正如亞馬遜雲科技大中華區產品部總經理陳曉建所言，“企業需要的是懂業務、懂用戶的生成式AI應用，而打造這樣的應用需要從數據做起。”

例如，北京靈奧科技是一家大模型中間件領域創企。在此之前，北京靈奧科技就已經將整個平台搭建在亞馬遜科技之上，使用了Amazon EKS、Amazon DocumentDB、Amazon S3等基礎雲服務和數據存儲產品，以及基於Amazon Bedrock提供的Claude模型，用於構建Vanus平台的AI Agent助手。

在服務一家南美州服飾類電商企業的過程中，Vanus爲Shopify電商客戶構建了客服類Agent VanChat。數據顯示，通過VanChat提供的用戶意圖識別、產品推薦等功能加速用戶產品購買，提升網站的銷售額。VanChat爲該客戶帶來快速的營收增長，僅上線首月ROI高達611%。

從最近的動作來看，擅長從客戶需求視角倒推產品，亞馬遜雲科技已將上述提及的能力抽象爲部分產品方案開放出來。（本文首發於鈦媒體APP，作者｜楊麗，編輯 | 蓋虹達）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

大模型时代的数据底座怎么建 | ToB产业观察

大模型時代的數據底座怎麼建 | ToB產業觀察

風險及免責聲明

聲明