格靈深瞳趙勇：論大模型時代的AI產品進化 | 2024 ITValue Summit數字價值年會

鈦媒體 · 09/18 11:30

9月11日-14日，由钛媒体与ITValue共同主办的2024 ITValue Summit数字价值年会在三亚举行。此次峰会主题为“Ready For AI”，交流经验教训，交叉行业思考，推动创新交易，以创新场景为基础，共同探索AI驱动下数字经济时代的全新机遇，共同打造一场数字经济时代的AI创新探索盛宴。

格灵深瞳创始人、董事长、CEO赵勇以《是虚假繁荣还是爆发前夜？论大模型时代的AI产品进化》发表了主题演讲。他表示，格灵深瞳要做一家AI时代的产品公司，在泛安防、工业检测、人机交互等领域持续深耕，深度理解用户和场景，用好的产品为广大客户创造更大的价值。

赵勇指出，之前AI之所以落地难，主要原因在于交付成本高、有效数据少、泛化能力弱。而大模型带来的是一个构建行业AI应用的全新技术范式。

用大模型解决物理世界中的原子操作问题，可以做到99.99%的体验感。并且在该领域，未来3-5年会出现一批优秀成果，能够基于人工智能生成物理世界的API。

当然，技术只是基础，产品和场景才是应用落地的关键。

以下为格灵深瞳创始人、董事长、CEO赵勇演讲实录，经钛媒体编辑整理：

今年，红杉资本分享的一项数据发现，仅过去一年，AI公司购买英伟达GPU的花费就已经超过500亿美元，而目前所有AI公司产生的营收总和却远低于这个数值。这意味着，AI行业的落地还在早期，还没有出现真正意义上的killer app。

那么AI落地难在哪儿？以自动驾驶为例，2009年我博士毕业后，花了很大精力解决谷歌自动驾驶项目中有关视觉算法的问题。十年过去，中国仍未出现一家真正规模化商业运营的自动驾驶汽车公司。我们离真正安全且可商用的无人驾驶还有较长的路要走。

相较之下，AI在安防领域取得了一定成功。市场需求推动了安防产品的发展，也给国内的AI公司带来了第一次大规模商业落地的契机。

NLP领域也曾经历“百箱大战”，但很多用户购买了智能音箱后发现，产品远未达到自己预期的智能交互水平。去年大模型的涌现，智能音箱产品的性能有所提升，包括在汽车场景下的语音通话能力也有所增强。这让我又有了新的期待。

总结来讲，过去AI之所以落地难，主要原因在于交付成本高、有效数据少、泛化能力弱。

而大模型带来的是一个构建行业AI应用的全新技术范式。大模型理论上可以通过付出较少的成本，来高效解决长尾需求从而降低交付成本，通过通用能力来解决少样本数据的问题，同时大幅提升模型的泛化能力。举几个例子。

格灵深瞳在银行安防领域深耕多年，在视频智能化应用这个细分领域做到了行业第一，过去几年为客户开发了几十个场景算法，公司自研的视觉大模型在银行这个场景落地后，很多算法的性能和稳定性得到了极大的提升；在轨道交通领域，公司研发的巡检机器人主要应用于高铁、地铁等列车的日常巡检场景，检测识别列车的零部件缺陷、故障等，但是这些真正有价值的负样本数据量不大，且很难穷举，因此以前我们的做法是跟客户一起去造一些负样本数据，比如故意弄坏一些零部件，然后作为负样本数据进行标注，但这样的效率很低。现在，我们用AIGC的方式生成了大量的负样本数据，同时轨交大模型上线后，相关算法的准确性得到了显著提升，轨交运维场景的很多长尾需求也得到了解决；在教育领域，格灵深瞳服务于学校的体育教学和考试场景，体育的项目很多，跳绳、仰卧起坐、篮球、游泳、踢毽子等，以前的模型泛化能力不强，因此我们需要针对每一个项目采集数据，训练模型，大模型能很好地解决这些问题。

有一点我需要提一下，我们通常理解的大模型往往代指的是大语言模型，目前的应用主要集中在聊天机器人和AI助手等轻量级应用上。但实际上，大模型并不仅仅包括大语言模型，视觉大模型和多模态大模型在产业界有更大的想象空间。

在算法层面，大语言模型的智能涌现有其原因。本质上，NLP研究的是人类符号语言，它本身就具备语义，大量的互联网内容都是由文字构成，而这些信息同时又是广泛开放且容易获取的。文本数据可以做无监督训练，因此在纯数字世界做机器学习相对简单。

让我们把视线从数字世界转移到物理世界。在视觉领域，摄像头捕捉的往往是物理世界中的自然数据，视觉数据不能直接用于无监督学习，且规则约束永远无法穷举，而行业数据又无法通过公开渠道获取，因此大模型在物理世界中的应用价值更大。与此同时，人工智能技术在物理世界中的交付，比数字世界要难。但是越难走的路，往往走通后的收获越大。尽管从视觉数据中获得Insight，比文本信息更难，但相应的价值更高，也更值得做。

与数字世界不同，物理世界不存在一个稳定可靠的API。今天，我们的方法是用大模型解决物理世界中的原子操作问题，然后在上层去做组合应用，从而解决不同复杂场景下的问题，这样可以做到99.99%的体验感。并且在该领域，未来3-5年会出现一批优秀成果。这也是格灵深瞳未来几年的工作重心。

而在数据方面。数据孤岛问题的形成原因之一是，客户不愿意将数据分享出来。我的建议是，如果想推动数据孤岛问题的解决，大客户最好直接找科技公司交付项目，不需要太多集成商作中间商去交付。这会增加数据流动的障碍。此外，模型训练需要非常多标注数据，今天人工标注成本依然很高，我们多年前就开始用自动标注的方式来处理数据。

此外，我认为行业Insight跟行业数据一样重要。去年OpenAI的CEO说过一段话，我挺反对。他说，大模型出来后，所有的产品经理会失业，不需要太多套壳应用。但在我看来，对场景、客户以及业务流程的深刻了解，还是极其有价值的，只有那些愿意躬身沉入到行业中的公司才能真正解决客户的问题。一方面把AI算法与特定行业场景深度融合的经验，是难以在短期内获得的；另一方面，跟很容易从开源数据学习到的语言信息不一样，视觉的东西没见过或者没做过，你就是不知道，只有深耕行业，才能积累到足够多的有效数据。大模型再厉害，也无法替代产品文化，未来优秀的产品经理和产品文化，对交付AI产品来说极其重要。

算力方面。今天最强大的H100的CUDA核数量也只有1.5万个，而人脑神经元的数量约1000亿个，差距非常大。大模型的潜力还没有被充分挖掘出来。

但是，如果每个场景都通过大模型进行实时视觉处理，非常不现实。大模型很重要，但它不能独立地主导一切，相当长一段时间里还需要小模型。而它又不同于传统深度学习的小规模模型，现在更多是依赖于大数据，在场景里通过大模型蒸馏出小模型，实现轻量部署。同时，在中心端用大模型去弥补小模型带来的性能差异。所以，我们在产品落地时采用了很多方法来分散算力，在边缘侧用小模型处理实时任务，在中心端侧用大模型验证，这种模式成本比较低。

当然，归根结底，技术只是基础，产品和场景才是应用落地的关键。唯有深耕行业，AI才能开花结果。格灵深瞳致力于做一家AI时代的产品公司，在泛安防、工业检测、人机交互等领域持续深耕，深度理解用户，理解场景，用好的产品为广大客户创造价值。

9月11日-14日，由鈦媒體與ITValue共同主辦的2024 ITValue Summit數字價值年會在三亞舉行。此次峯會主題爲「Ready For AI」，交流經驗教訓，交叉行業思考，推動創新交易，以創新場景爲基礎，共同探索AI驅動下數字經濟時代的全新機遇，共同打造一場數字經濟時代的AI創新探索盛宴。

格靈深瞳創始人、董事長、CEO趙勇以《是虛假繁榮還是爆發前夜？論大模型時代的AI產品進化》發表了主題演講。他表示，格靈深瞳要做一家AI時代的產品公司，在泛安防、工業檢測、人機交互等領域持續深耕，深度理解用戶和場景，用好的產品爲廣大客戶創造更大的價值。

趙勇指出，之前AI之所以落地難，主要原因在於交付成本高、有效數據少、泛化能力弱。而大模型帶來的是一個構建行業AI應用的全新技術範式。

用大模型解決物理世界中的原子操作問題，可以做到99.99%的體驗感。並且在該領域，未來3-5年會出現一批優秀成果，能夠基於人工智能生成物理世界的API。

當然，技術只是基礎，產品和場景才是應用落地的關鍵。

以下爲格靈深瞳創始人、董事長、CEO趙勇演講實錄，經鈦媒體編輯整理：

今年，紅杉資本分享的一項數據發現，僅過去一年，AI公司購買英偉達GPU的花費就已經超過500億美元，而目前所有AI公司產生的營收總和卻遠低於這個數值。這意味着，AI行業的落地還在早期，還沒有出現真正意義上的killer app。

那麼AI落地難在哪兒？以自動駕駛爲例，2009年我博士畢業後，花了很大精力解決谷歌自動駕駛項目中有關視覺算法的問題。十年過去，中國仍未出現一家真正規模化商業運營的自動駕駛汽車公司。我們離真正安全且可商用的無人駕駛還有較長的路要走。

相較之下，AI在安防領域取得了一定成功。市場需求推動了安防產品的發展，也給國內的AI公司帶來了第一次大規模商業落地的契機。

NLP領域也曾經歷「百箱大戰」，但很多用戶購買了智能音箱後發現，產品遠未達到自己預期的智能交互水平。去年大模型的湧現，智能音箱產品的性能有所提升，包括在汽車場景下的語音通話能力也有所增強。這讓我又有了新的期待。

總結來講，過去AI之所以落地難，主要原因在於交付成本高、有效數據少、泛化能力弱。

而大模型帶來的是一個構建行業AI應用的全新技術範式。大模型理論上可以通過付出較少的成本，來高效解決長尾需求從而降低交付成本，通過通用能力來解決少樣本數據的問題，同時大幅提升模型的泛化能力。舉幾個例子。

格靈深瞳在銀行安防領域深耕多年，在視頻智能化應用這個細分領域做到了行業第一，過去幾年爲客戶開發了幾十個場景算法，公司自研的視覺大模型在銀行這個場景落地後，很多算法的性能和穩定性得到了極大的提升；在軌道交通領域，公司研發的巡檢機器人主要應用於高鐵、地鐵等列車的日常巡檢場景，檢測識別列車的零部件缺陷、故障等，但是這些真正有價值的負樣本數據量不大，且很難窮舉，因此以前我們的做法是跟客戶一起去造一些負樣本數據，比如故意弄壞一些零部件，然後作爲負樣本數據進行標註，但這樣的效率很低。現在，我們用AIGC的方式生成了大量的負樣本數據，同時軌交大模型上線後，相關算法的準確性得到了顯著提升，軌交運維場景的很多長尾需求也得到了解決；在教育領域，格靈深瞳服務於學校的體育教學和考試場景，體育的項目很多，跳繩、仰臥起坐、籃球、游泳、踢毽子等，以前的模型泛化能力不強，因此我們需要針對每一個項目採集數據，訓練模型，大模型能很好地解決這些問題。

有一點我需要提一下，我們通常理解的大模型往往代指的是大語言模型，目前的應用主要集中在聊天機器人和AI助手等輕量級應用上。但實際上，大模型並不僅僅包括大語言模型，視覺大模型和多模態大模型在產業界有更大的想象空間。

在算法層面，大語言模型的智能湧現有其原因。本質上，NLP研究的是人類符號語言，它本身就具備語義，大量的互聯網內容都是由文字構成，而這些信息同時又是廣泛開放且容易獲取的。文本數據可以做無監督訓練，因此在純數字世界做機器學習相對簡單。

讓我們把視線從數字世界轉移到物理世界。在視覺領域，攝像頭捕捉的往往是物理世界中的自然數據，視覺數據不能直接用於無監督學習，且規則約束永遠無法窮舉，而行業數據又無法通過公開渠道獲取，因此大模型在物理世界中的應用價值更大。與此同時，人工智能技術在物理世界中的交付，比數字世界要難。但是越難走的路，往往走通後的收穫越大。儘管從視覺數據中獲得Insight，比文本信息更難，但相應的價值更高，也更值得做。

與數字世界不同，物理世界不存在一個穩定可靠的API。今天，我們的方法是用大模型解決物理世界中的原子操作問題，然後在上層去做組合應用，從而解決不同複雜場景下的問題，這樣可以做到99.99%的體驗感。並且在該領域，未來3-5年會出現一批優秀成果。這也是格靈深瞳未來幾年的工作重心。

而在數據方面。數據孤島問題的形成原因之一是，客戶不願意將數據分享出來。我的建議是，如果想推動數據孤島問題的解決，大客戶最好直接找科技公司交付項目，不需要太多集成商作中間商去交付。這會增加數據流動的障礙。此外，模型訓練需要非常多標註數據，今天人工標註成本依然很高，我們多年前就開始用自動標註的方式來處理數據。

此外，我認爲行業Insight跟行業數據一樣重要。去年OpenAI的CEO說過一段話，我挺反對。他說，大模型出來後，所有的產品經理會失業，不需要太多套殼應用。但在我看來，對場景、客戶以及業務流程的深刻了解，還是極其有價值的，只有那些願意躬身沉入到行業中的公司才能真正解決客戶的問題。一方面把AI算法與特定行業場景深度融合的經驗，是難以在短期內獲得的；另一方面，跟很容易從開源數據學習到的語言信息不一樣，視覺的東西沒見過或者沒做過，你就是不知道，只有深耕行業，才能積累到足夠多的有效數據。大模型再厲害，也無法替代產品文化，未來優秀的產品經理和產品文化，對交付AI產品來說極其重要。

算力方面。今天最強大的H100的CUDA核數量也只有1.5萬個，而人腦神經元的數量約1000億個，差距非常大。大模型的潛力還沒有被充分挖掘出來。

但是，如果每個場景都通過大模型進行實時視覺處理，非常不現實。大模型很重要，但它不能獨立地主導一切，相當長一段時間裏還需要小模型。而它又不同於傳統深度學習的小規模模型，現在更多是依賴於大數據，在場景裏通過大模型蒸餾出小模型，實現輕量部署。同時，在中心端用大模型去彌補小模型帶來的性能差異。所以，我們在產品落地時採用了很多方法來分散算力，在邊緣側用小模型處理實時任務，在中心端側用大模型驗證，這種模式成本比較低。

當然，歸根結底，技術只是基礎，產品和場景才是應用落地的關鍵。唯有深耕行業，AI才能開花結果。格靈深瞳致力於做一家AI時代的產品公司，在泛安防、工業檢測、人機交互等領域持續深耕，深度理解用戶，理解場景，用好的產品爲廣大客戶創造價值。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

格灵深瞳赵勇：论大模型时代的AI产品进化 | 2024 ITValue Summit数字价值年会

格靈深瞳趙勇：論大模型時代的AI產品進化 | 2024 ITValue Summit數字價值年會

風險及免責聲明

聲明