share_log

商汤想要创造“超级时刻”

wallstreetcn ·  13:24

作者 | 刘宝丹

编辑 | 周智宇

ChatGPT的爆红让人们看到了AI大模型的巨大潜力,在经过一年多的技术追赶后,国内大模型公司纷纷押注应用端。

然而,要想做出一款真正有影响力的产品,并不是件容易的事情。

在2024世界人工智能大会上,商汤CEO徐立审慎地指出:“尽管热潮汹涌,但我们距离那个真正震撼业界的‘超级时刻’尚有距离。”他强调,AI尚未全面渗透至各行各业的骨髓之中,也未能在社会上激起广泛而深刻的变革涟漪。

正是基于这种清醒的认知,商汤把当前的重点放在了大模型本身的性能上。

7月5日,商汤在“大爱无疆·向新力”人工智能论坛上发布了“日日新5o”,这是国内首个所见即所得模型,其交互体验对标GPT-4o。

具体来看,“日日新5o”通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,带来一种全新的AI交互模式,即实时的流式多模态交互。

对于为何命名为5o,商汤研究院研发总监卢乐炜对华尔街见闻表示,这个版本引入了很多现在能媲美 GPT-4o 的最前沿能力,在版本命名上比较保守,V6会有一个更大的计划,带来更全面、更基础的大升级。

创新交互模式

在现场,商汤科技对“日日新5o”的能力进行了演示:

刚开始,工作人员仅是和“日日新5o”打个招呼,它就自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。

接下来,工作人员拿了一只可爱小狗玩偶,“日日新5o”准确描述了小狗的外貌、表情以及重要穿戴——一个戴着印有商汤科技logo白帽子,很给主场人排面。

再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。

工作人员还现场发挥了“画功”,随手画了一只简笔画小兔子,“日日新5o”直呼画得可爱,而后工作人员又画了一个微笑表情,它从这个平静的表情中捕捉到了笑意,工作人员又改了一笔把嘴巴画大增添了舌头,“日日新5o”看到后立马说到这表情开心多了。

“日日新5o”打造的是如同真人聊天一般的交流对话,据商汤介绍,这种交互模式特别适用于实时对话和语音识别等应用,能够实现对标GPT-4o的交互体验正是源于“日日新5.5”基础模型能力的全面提升。

接下来的计划

今年4月,商汤科技发布了“日日新5.0”,这是国内首个对标GPT-4 Turbo的国产大模型,引发资本市场的热潮。

短短两个多月时间,全新“日日新5.5”体系迎来多项升级,综合性能较“日日新5.0”平均提升30%,在数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。

卢乐炜表示,5.5的发布从技术预研来说,不是最近几个月的,它是商汤自上年末在研发原生多模态的一个方法论的集成。“这一块恰好跟 GPT-4o 的 o 这个 Omni的实际含义是一样的。我们当时很早就预判了这个趋势,有一个研发攻关的技术团队在做这个事。”

“它能在训练过程中涵盖多个模态带给它的知识,然后相互融合,这个对于算法的性能精度提升帮助非常大。”卢乐炜进一步强调,这个原生多模态集成了音频、视频,还有最早的图像,从输入端encoder到输出端 decoder 都是完全集成到一个模型里。

此外,“日日新5.5”采用混合端云协同专家架构,最大限度发挥云边端协同,降低推理成本,模型训练基于超过10TB tokens高质量训练数据,包括大量合成的思维链数据,提升推理思维能力。

对于接下来的版本计划,卢乐炜表示,这一版本更新还是相当大的,当时也考虑按常规是一个 V6 的版本号,但我们同时在进行的 V6 版本会有一个更大的计划,它能承载一个希望更全面的、更基础的一个大的升级。

“我们先把他保守的宣传做一个5.5版本的发布,希望也可以让大家期待一下,到时候 V6 将会带来怎样一个更全面的升级。”

The above content is for informational or educational purposes only and does not constitute any investment advice related to Futu. Although we strive to ensure the truthfulness, accuracy, and originality of all such content, we cannot guarantee it.
    Write a comment