share_log

格灵深瞳赵勇:论大模型时代的AI产品进化 | 2024 ITValue Summit数字价值年会

TMTPost News ·  Sep 18 11:30

9月11日-14日,由钛媒体与ITValue共同主办的2024 ITValue Summit数字价值年会在三亚举行。此次峰会主题为“Ready For AI”,交流经验教训,交叉行业思考,推动创新交易,以创新场景为基础,共同探索AI驱动下数字经济时代的全新机遇,共同打造一场数字经济时代的AI创新探索盛宴。

格灵深瞳创始人、董事长、CEO赵勇以《是虚假繁荣还是爆发前夜?论大模型时代的AI产品进化》发表了主题演讲。他表示,格灵深瞳要做一家AI时代的产品公司,在泛安防、工业检测、人机交互等领域持续深耕,深度理解用户和场景,用好的产品为广大客户创造更大的价值。

赵勇指出,之前AI之所以落地难,主要原因在于交付成本高、有效数据少、泛化能力弱。而大模型带来的是一个构建行业AI应用的全新技术范式。

用大模型解决物理世界中的原子操作问题,可以做到99.99%的体验感。并且在该领域,未来3-5年会出现一批优秀成果,能够基于人工智能生成物理世界的API。

当然,技术只是基础,产品和场景才是应用落地的关键。

big

以下为格灵深瞳创始人、董事长、CEO赵勇演讲实录,经钛媒体编辑整理:

今年,红杉资本分享的一项数据发现,仅过去一年,AI公司购买英伟达GPU的花费就已经超过500亿美元,而目前所有AI公司产生的营收总和却远低于这个数值。这意味着,AI行业的落地还在早期,还没有出现真正意义上的killer app。

2r4t3hrn3.png

那么AI落地难在哪儿?以自动驾驶为例,2009年我博士毕业后,花了很大精力解决谷歌自动驾驶项目中有关视觉算法的问题。十年过去,中国仍未出现一家真正规模化商业运营的自动驾驶汽车公司。我们离真正安全且可商用的无人驾驶还有较长的路要走。

相较之下,AI在安防领域取得了一定成功。市场需求推动了安防产品的发展,也给国内的AI公司带来了第一次大规模商业落地的契机。

NLP领域也曾经历“百箱大战”,但很多用户购买了智能音箱后发现,产品远未达到自己预期的智能交互水平。去年大模型的涌现,智能音箱产品的性能有所提升,包括在汽车场景下的语音通话能力也有所增强。这让我又有了新的期待。

总结来讲,过去AI之所以落地难,主要原因在于交付成本高、有效数据少、泛化能力弱。

而大模型带来的是一个构建行业AI应用的全新技术范式。大模型理论上可以通过付出较少的成本,来高效解决长尾需求从而降低交付成本,通过通用能力来解决少样本数据的问题,同时大幅提升模型的泛化能力。举几个例子。

格灵深瞳在银行安防领域深耕多年,在视频智能化应用这个细分领域做到了行业第一,过去几年为客户开发了几十个场景算法,公司自研的视觉大模型在银行这个场景落地后,很多算法的性能和稳定性得到了极大的提升;在轨道交通领域,公司研发的巡检机器人主要应用于高铁、地铁等列车的日常巡检场景,检测识别列车的零部件缺陷、故障等,但是这些真正有价值的负样本数据量不大,且很难穷举,因此以前我们的做法是跟客户一起去造一些负样本数据,比如故意弄坏一些零部件,然后作为负样本数据进行标注,但这样的效率很低。现在,我们用AIGC的方式生成了大量的负样本数据,同时轨交大模型上线后,相关算法的准确性得到了显著提升,轨交运维场景的很多长尾需求也得到了解决;在教育领域,格灵深瞳服务于学校的体育教学和考试场景,体育的项目很多,跳绳、仰卧起坐、篮球、游泳、踢毽子等,以前的模型泛化能力不强,因此我们需要针对每一个项目采集数据,训练模型,大模型能很好地解决这些问题。

有一点我需要提一下,我们通常理解的大模型往往代指的是大语言模型,目前的应用主要集中在聊天机器人和AI助手等轻量级应用上。但实际上,大模型并不仅仅包括大语言模型,视觉大模型和多模态大模型在产业界有更大的想象空间。

在算法层面,大语言模型的智能涌现有其原因。本质上,NLP研究的是人类符号语言,它本身就具备语义,大量的互联网内容都是由文字构成,而这些信息同时又是广泛开放且容易获取的。文本数据可以做无监督训练,因此在纯数字世界做机器学习相对简单。

让我们把视线从数字世界转移到物理世界。在视觉领域,摄像头捕捉的往往是物理世界中的自然数据,视觉数据不能直接用于无监督学习,且规则约束永远无法穷举,而行业数据又无法通过公开渠道获取,因此大模型在物理世界中的应用价值更大。与此同时,人工智能技术在物理世界中的交付,比数字世界要难。但是越难走的路,往往走通后的收获越大。尽管从视觉数据中获得Insight,比文本信息更难,但相应的价值更高,也更值得做。

与数字世界不同,物理世界不存在一个稳定可靠的API。今天,我们的方法是用大模型解决物理世界中的原子操作问题,然后在上层去做组合应用,从而解决不同复杂场景下的问题,这样可以做到99.99%的体验感。并且在该领域,未来3-5年会出现一批优秀成果。这也是格灵深瞳未来几年的工作重心。

而在数据方面。数据孤岛问题的形成原因之一是,客户不愿意将数据分享出来。我的建议是,如果想推动数据孤岛问题的解决,大客户最好直接找科技公司交付项目,不需要太多集成商作中间商去交付。这会增加数据流动的障碍。此外,模型训练需要非常多标注数据,今天人工标注成本依然很高,我们多年前就开始用自动标注的方式来处理数据。

此外,我认为行业Insight跟行业数据一样重要。去年OpenAI的CEO说过一段话,我挺反对。他说,大模型出来后,所有的产品经理会失业,不需要太多套壳应用。但在我看来,对场景、客户以及业务流程的深刻了解,还是极其有价值的,只有那些愿意躬身沉入到行业中的公司才能真正解决客户的问题。一方面把AI算法与特定行业场景深度融合的经验,是难以在短期内获得的;另一方面,跟很容易从开源数据学习到的语言信息不一样,视觉的东西没见过或者没做过,你就是不知道,只有深耕行业,才能积累到足够多的有效数据。大模型再厉害,也无法替代产品文化,未来优秀的产品经理和产品文化,对交付AI产品来说极其重要。

算力方面。今天最强大的H100的CUDA核数量也只有1.5万个,而人脑神经元的数量约1000亿个,差距非常大。大模型的潜力还没有被充分挖掘出来。

但是,如果每个场景都通过大模型进行实时视觉处理,非常不现实。大模型很重要,但它不能独立地主导一切,相当长一段时间里还需要小模型。而它又不同于传统深度学习的小规模模型,现在更多是依赖于大数据,在场景里通过大模型蒸馏出小模型,实现轻量部署。同时,在中心端用大模型去弥补小模型带来的性能差异。所以,我们在产品落地时采用了很多方法来分散算力,在边缘侧用小模型处理实时任务,在中心端侧用大模型验证,这种模式成本比较低。

当然,归根结底,技术只是基础,产品和场景才是应用落地的关键。唯有深耕行业,AI才能开花结果。格灵深瞳致力于做一家AI时代的产品公司,在泛安防、工业检测、人机交互等领域持续深耕,深度理解用户,理解场景,用好的产品为广大客户创造价值。

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment