作者:于钟海、王之昊、魏鹳霏、韩蕊、胡安琪、谭哲贤
来源:中金点睛
ChatGPT向AGI更近一步,通用人工智能赋能应用软件成为可能,其中与工具软件结合想象空间宽广。 对应用软件厂商而言,接入AI大模型短期成本低,长期想象空间大,因此我们观察到绝大多数应用软件厂商均积极接入大模型能力。目前,以ChatGPT为代表的AI大模型能力主要在于人机交互对话AI以及创成式AI,其与应用软件的结合主要涵盖AI+工具类软件、AI+搜索引擎、AI+服务类应用、AI+垂直行业应用等方向。我们认为其中创成式AI与工具类软件具有天然契合性,下游应用场景、想象空间广阔。
短期维度:融合创成式AI提升生产效率,成为工具软件竞争的新焦点。 目前创成式AI主要以嵌入现有工具软件的方式帮助用户提升生产效率,在文字(如Notion AI)、图片(如Stable Diffusion、Midjourney)、视频(如Make-A-Video)、3D模型创作、音频等领域已有众多厂商参与探索实践。我们认为,产品价值角度,AI融合应用的功能或将成为工具软件的增量付费点;竞争角度,原生于AI的新兴厂商、传统厂商对AI应用融合的跟进速度都将使现有格局产生变化。但随着创成式AI应用的普及,未来AI融合工具软件可能成为“标配”,届时AI融合场景的应用深度将成为竞争新焦点。
长期维度:创成式AI或将重塑商业逻辑,实现生产工具向生产力的跃迁。 理想情况下,我们认为,未来真正的AGI将能够不依赖于人类用户的命令与引导进行创作,AI赋能下的工具软件有可能完成从生产工具提供方向生产力提供方的转变,届时底层AI能力提供方与工具软件厂商将共同参与生产价值的分配。为了更好地理解长期视角下AI对于商业逻辑的重塑,我们将AGI从产业结构、商业逻辑、竞争格局和价值分享角度与云计算进行对比分析,我们认为正如目前“上云”已成为应用软件的“必修课”,未来“AI+”也可能成为应用软件标配,并带来新一轮价值释放。风险
技术进展不及预期、商业化落地节奏不及预期、行业竞争加剧。
正文 AGI大模型渐入佳境,创成式AI深度赋能工具软件
ChatGPT向AGI更近一步,通用人工智能赋能应用软件成为可能
ChatGPT掀起全球AI热潮,通往AGI的道路亦或将近。 ChatGPT(Chat Generative Pre-Trained Transformer)是由OpenAI开发的人工智能聊天机器人程序,其基于GPT-3.5大模型,能够完成相对复杂的语言处理任务,包括人机对话、自动文本生成、自动摘要、编写代码等,在2022年11月推出,上线两个月后用户数量即达到1亿规模,在全球范围内掀起又一轮AI热潮。ChatGPT的火爆让业界意识到AI行业在通往AGI(通用人工智能)的路途上更近一步,进而也引发了世界范围内对AGI未来会如何重塑各行各业的讨论与畅想。
全球范围内各类应用软件厂商积极拥抱以OpenAI为代表的人工智能新生态。 在ChatGPT推出之后,微软计划对OpenAI追加100亿美元投资并在旗下搜索、办公软件中探索融合应用场景。由于ChatGPT显现出的巨大应用潜力与可能性,全球广大应用厂商也均开始积极尝试接入OpenAI的技术接口,以期AI与其现有产品能够产生新的化学反应。国内市场亦快速跟进,百度宣布旗下对标产品文心一言将于3月完成内测、面向公众开放,目前国内已有上百家企业宣布接入文心一言,其中不乏汉得信息、金蝶、宇信等企业服务软件厂商。同时,我们预计国内外将持续出现更多的大模型,吸引更多的应用软件厂商丰富、壮大AI生态。
对于应用软件厂商而言,接入AI大模型短期成本投入较低,长期想象空间较大。 由于目前ChatGPT等大模型均在发布初期,商业模式探索亦刚刚起步,现阶段重点在于生态构建而非商业变现,因此无论是OpenAI、百度还是其他大模型厂商,短期对于应用软件厂商的接口调用均保持开放态度。这意味着,对于应用软件厂商而言,其短时间内接入AI的成本不高,而AI对其产品形态以及商业逻辑长期能够带来的积极变化却颇具想象力,因此我们观察到绝大多数的应用软件厂商均积极接入大模型能力,相关应用软件数量正呈现指数级扩张的态势 。
目前以ChatGPT为代表的AI大模型能力主要在于人机交互AI能力以及创成式AI能力等,而其与应用软件的结合主要涵盖以下几个方向:
► AI+工具类软件:辅助文字、图片、视频生产。 AI与创作工具类软件的融合应用主要发挥的是ChatGPT等LLM大模型的创成式AI能力,其能够基于用户输入的指令和引导完成文字生成、图片生成、视频生成等辅助创作类任务。目前典型的应用代表包括文字类的Notion AI、Office(微软计划将ChatGPT接入);图片类的Stable Diffusion(Stability AI旗下)、Midjourney、DALL-E(OpenAI旗下)、Imagen(谷歌旗下)和视频类的Designs.ai、Make-A-Video(Meta旗下)、Lumen5等。
► AI+搜索引擎:借助自然语言处理将传统的搜索点击转变为互动问答形式,并生成个性化结果。 AI与搜索引擎的结合发挥的主要是基于自然语言处理的人机交互对话能力,以问答的形式帮助用户解决问题,即时生成个性化的规划、建议、分析等。典型代表包括接入ChatGPT能力后增加互动聊天和辅助写作功能的微软NewBing搜索引擎。
► AI+服务类应用:发挥人机交互能力改善自助式服务体验。 AI与服务类应用的结合主要以自助问答聊天机器人的形式落地,发挥LLM大模型的人机交互能力。典型代表包括电商、游戏、地图等各类服务应用场景中的智能问答、帮助机器人。
► AI+垂直行业应用:与现有垂类行业应用结合,本质上亦归属于上述三种形态。 典型代表包括宇信、汉得、金蝶、恒生电子等,融合大模型的人机交互、创成能力,实现更高效的信息获取、分析、形成智能解决方案等。我们认为,其本质上亦可以归类为上述三种形态中的某一种,未来需要进一步探索如何与垂直场景进行更好的结合,针对行业性语料进行更深度的训练以发挥更好的效果。
图表:AI大模型与应用软件的主要融合方向
资料来源:各公司官网,中金公司研究部 应用软件厂商在AI领域的投入将更专注于AI应用场景的探索以及与现有应用的融合。 从整个AI产业链的分工来看,我们认为未来大模型厂商将会承担绝大部分的底层算法开发优化工作,而应用软件厂商则会更专注在应用场景的发掘、深耕,以及与现有AI大模型更深度的融合应用。对于通用人工智能未来能否实现产业化,我们认为先进的底层大模型以及与之相匹配的上层应用均缺一不可,AI厂商与应用软件厂商未来将会有更加紧密合理的分工合作。
在上述的应用方向与场景中,我们更为关注创成式AI与工具软件结合的可能性。 以ChatGPT为代表的大模型应用中,创成式AI是较为突出的能力,且与现有的工具类软件(文字创作工具、图片创作工具、3D模型创作工具等)具有天然的契合性,下游应用场景广阔、颇具想象空间。因此在本篇报告中,我们将主要聚焦于创成式AI对工具软件的赋能,以及其长期重塑工具软件底层商业逻辑和产业生态的可能性。
创成式AI赋能工具软件将为其创造哪些可能性? 从短期维度来看,目前创成式AI主要以嵌入到现有工具软件中的方式,作为创新性的辅助功能来帮助用户提升生产效率,厂商可以将其作为增值服务来额外收费;但从长期来看,如果未来创成式AI能够实现不依赖于用户引导的主动式创作,则其有望实现从生产工具向生产力的蜕变,真正意义上替代部分“创作人员”的工作。因此我们对于创成式AI的态度是,短期保守,长期不低估。 图表:全球范围目前已经或计划接入OpenAI、文心一言等语言类大模型的应用一览
资料来源:同花顺财经,IT之家,新民晚报,新浪财经,中金公司研究部 短期维度:融合创成式AI提升生产效率,成为工具软件竞争的新焦点
目前创成式AI主要以嵌入现有工具软件的方式帮助用户提升生产效率。 工具软件融合创成式AI后,能够在用户指定的框架、指令与引导下进行辅助式创作,进而帮助用户减少重复性、机械性、规则导向的劳作,甚至进而承担具有一定创造性的工作,比如基于指引在现有语料库基础之上收集归纳形成文字创作、基于文字描述生成图片与视频、在3D模型创作中辅助实现参数优化等。目前在文字、2D图片、3D模型、音频、视频等多个模态领域已有众多厂商选择参与探索实践:
► 创成式AI与文字创作: 海外厂商如Notion内置了AI写作助手可以根据用户描述自动生成不同应用场景下的文本内容,微软亦计划在Office中接入ChatGPT能力;国内厂商如金山办公旗下WPS可以实现文档校对、全文翻译和辅助写作等功能。除了C端应用之外,亦有厂商开发了专门面向企业的AI辅助文字创作产品,典型代表为第四范式旗下的式说,能够将GPT这类大型生成式语言模型与企业内部垂直领域知识融合、同时保障私有化部署,以满足企业级应用对垂直行业知识、数据安全、内容可信等的要求。
► 创成式AI与图片创作: 海外已有较多公司推出基于文字生成图像的产品,流行度较高的包括OpenAI旗下DALL E 2、Stability AI旗下Stable Diffusion、Midjourney等,其操作流程大多类似,输入关键词即可生成多幅AI绘画内容,并支持进一步修改和添加细节,各厂商在生成图片风格上各异,DALL-E2偏写实、Midjourney偏科幻、Stable Diffusion无风格偏向可根据细节指令多次尝试调整。国内亦有厂商跟进如昆仑万维旗下的天工巧绘和万兴科技旗下的万兴爱画等。
► 创成式AI与音频创作: 海外厂商如谷歌在去年10月发布了AudioLM,可以根据输入的音频片段生成相似风格的音频,今年1月又推出MusicLM,可直接根据文字、图像生成音乐;微软也于今年1月发布了VALL-E,只需3秒音频即可模仿人说话,且可以复制说话者的情绪和语气;此外还有Stability AI旗下的Dance Diffusion、Open AI旗下Jukebox。国内亦有厂商跟进,包括讯飞配音、百度语音合成和腾讯智影等。
► 创成式AI与视频创作: 海外厂商如Meta旗下的Make-A-Video支持根据文字描述生成视频;谷歌旗下Imagen Video和Phenaki分别支持不同画质和长短要求的视频创作,2月初其再次发布视频编辑新方法Dreamix,能够实现对已有视频的编辑和通过提供图片与描述生成视频;此外还有Runway推出的AI视频生成模型GEN-1。国内厂商亦有所尝试,如万兴旗下的万兴播爆支持根据关键词生成数字人宣传视频、百度孵化的VidPress支持导入图文后自动实现配音、字幕、画面的视频内容生产,此外还有当虹科技的画质增量类AI产品和商汤智影推出的辅助智能脚本创作产品。
► 创成式AI与3D模型创作: Creo、Autodesk Fusion360、Solid Edge、Solidworks等3D CAD产品目前已广泛集成AI Inside应用能力,主要用于辅助实现参数优化和草图生成;在EDA领域,Synopsys、Cadence等海外EDA厂商在AI赋能芯片设计上均有所探索,通过已有的设计数据训练模型,实现更高的设计效率。
工具软件与AI的融合能够优化用户体验与生产效率,提升产品竞争力。 无论从带给用户“新奇感”还是从提升用户生产效率的角度,接入AI对于工具软件而言都是提升产品吸引力与竞争力的较优选择。同时由于短期接入大模型的试错成本较低,我们判断广大的工具软件厂商对于相关能力的接入都会抱有开放的态度,产业生态有望快速壮大。
但客观来看,目前的创成式AI仍具有多方面不足,主要作为辅助生产工具的形式出现。 由于目前以ChatGPT为代表的创成式AI仍存在缺乏特定行业语料训练、语料库滞后、无法保证逻辑推理正确性等多种不足,因此短期仅作为辅助生产工具的形式出现,并不具备完全主动进行生产创作的能力。并且在使用的过程中,用户也需要额外注意可能存在的版权纠纷、敏感信息、偏见歧视等方面的问题。我们认为,创成式AI与应用软件融合仍处于起步阶段、提升空间广阔。
AI赋能工具软件后,短期会对行业生态及商业格局带来哪些影响?
产品价值角度,AI融合应用的功能或将成为工具软件的增量付费点。 短期来看,工具软件厂商能够将与AI的融合应用作为差异化功能点和增值服务,向用户进行增量收费,进而打开产品付费天花板。比如微软发布的Teams Premium,需以每月10美元的价格订阅享用基于GPT-3.5的自动生成会议笔记等功能;同为微软旗下的辅助代码生成和修改应用Copilot亦需额外付费;Notion目前AI增强功能alpha测试版本免费,但官方表示未来正式版本将大概率收费。 图表:AI增强功能或将成为工具软件的增量付费点,进一步打开产品收入天花板
资料来源:公司官网,中金公司研究部 竞争角度,原生于AI的新兴厂商、传统厂商对AI应用融合的跟进速度都将使现有格局产生变化。 我们将AGI看作一个新的技术革命,可能对传统产业格局带来冲击。类比云计算时代,Salesforce等新兴SaaS厂商把握“上云”新趋势,异军突起“超车”SAP等老牌软件厂商;而Oracle、微软等传统厂商的云转型成效也直接影响其市场影响力演变趋势。事实上,目前已有一批AIGC相关独角兽正快速发展,在未来的AI融合应用时代,我们认为原生于AI的新兴厂商的出现及传统厂商AI转型效果都可能给现有的竞争格局带来改变。
图表:AIGC相关独角兽正快速发展,或使现有格局发生变化
但随着创成式AI应用的普及,未来AI融合工具软件可能成为“标配”。 由于工具软件厂商不需要在AI大模型开发上投入成本,而只需专注于AI融合应用的实践与适配,前期成本并不高,因此我们判断如果早期参与的工具软件厂商通过融合AI实现了商业成功,产业中的其他参与者将会快速跟进,AI融合工具软件或将成为“标配”。在这种情况下,我们认为,工具软件厂商可能将无法继续对AI增强功能进行单独收费,而厂商之间竞争的差异点也会从“有无AI增强”变为“能否用好AI”。
未来AI融合场景的应用深度将成为工具软件厂商竞争的新焦点。 当AI融合应用成为工具软件厂商的“标配”后,厂商之间竞争的焦点将落在如何发掘更适合AI的应用场景、最大限度发挥创成式AI的效能上。在同样都能够接入AI通用大模型能力的前提下,我们认为未来能够将AI与现有应用场景更好融合、更大程度发挥AI价值的厂商有望在新一轮的竞争中胜出,一些领域现有固化的竞争格局也可能会受到冲击甚至的颠覆。
长期维度:创成式AI或将重塑商业逻辑,实现生产工具向生产力的跃迁
理想中的AGI能够将生产工具升级为生产力,重塑工具软件底层商业逻辑。 长期来看,AGI(通用人工智能)融合工具软件应用具有较大的想象空间,产业中不乏将通用人工智能比作新一次“工业革命”以及“科技奇点”的观点。理想情况下,我们认为,未来真正的AGI将能够不依赖于人类用户的命令与引导进行创作,彼时,融合了AGI自主创作能力之后的工具软件将不再仅仅是辅助人类用户提效的“生产工具”,而成为独立的增量“生产力”。
AI赋能下的工具软件成为生产力后应直接参与生产价值的分配,生产价值由底层AI能力提供方与工具软件厂商共享。 我们认为,未来,如果AI赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将不再是间接收取提供工具的费用,而应直接参与生产价值的分配,比如一本完全由AI赋能的文字创作软件撰写的书籍,底层通用AI能力提供方与文字创作工具软件提供方均有权从书籍销售额中获得分成。
图表:创成式AI将生产工具升级为生产力,带来商业逻辑质变
资料来源:Business Digest,中金公司研究部 短期看,拥有稀缺AI融合场景的下游厂商更为关键;长期看,议价权向掌握底层通用AI能力的平台厂商转移。 在AGI探索的早期阶段,适合的下游应用场景较为稀缺,底层通用AI平台厂商希望尽可能多的应用厂商接入,进而获得更丰富的在垂直应用场景训练大模型的机会。但长期来看,由于训练大模型的技术、成本要求较高,随着AGI应用逐步深入,我们认为,最终议价权可能会向少数拥有底层通用AI能力的平台型厂商转移,其有望在价值分配中获得更高的比例。但暂不论最终价值分配比例孰高孰低,我们认为,在这一过程中,工具软件厂商的商业逻辑都产生了质变——即有可能直接介入到生产价值的分享过程中。
图表:理想中AGI带来工具软件价值分配逻辑变化
如何更好地理解长期视角下AI对于商业逻辑的重塑?我们将其与云计算带来的SaaS模式对比。 我们认为,AI和云计算同为具有划时代性质的技术变革,云计算创造了SaaS这一新型的商业模式并改变了传统企业服务软件的竞争格局,因此,我们将AGI从产业结构及商业逻辑等方面与云计算进行对比分析,讨论其可能带来的商业影响。
► 产业结构角度,AI中的算力、模型、AI融合应用分别对应云计算中的IaaS、PaaS、SaaS。 我们认为,与云计算的三层产业结构类似,AI模型的训练需要底层强大的硬件支持,算力层即对应云计算中的IaaS层;AI大模型则与基础软件类似,承担通用需求,同时目前大模型接口也正在尝试按量付费模式,MaaS(Model-as-a-Service)即对应云计算中的PaaS层;最上层应用软件调用AI大模型,直接面向企业、消费者提供融合AI能力后的垂直场景功能,即对应基于底层云计算基础设施和平台能力提供服务的SaaS软件。
图表:AI中的算力、模型、AI融合应用可以分别对应云计算中的IaaS、PaaS、SaaS
► 商业逻辑角度,云计算从销售产品向订阅服务转变,AGI有望带来生产工具使用付费向生产力直接参与价值分配的改变。 云计算使得客户从一次性买断基础软硬件产品向持续性付费以享受云厂商提供的服务转变,订阅制对于供应商来说意味着更优的现金流和收入可持续性、以及更高的客户付费总量。正如我们前文的讨论,若未来AI赋能下的工具软件能够完成生产工具提供方向生产力提供方的转变,其商业逻辑将从收取工具使用费用,转向直接参与生产价值的分配,对于供应商来说也意味着更优的收入可持续性和更高的收入天花板。
► 竞争格局角度,新厂商的进入和传统厂商对于新技术的适应程度均使得现有格局产生变化。 以数据库基础软件市场格局为例,过去十年的市场格局变化主要受云厂商和云原生独立数据库厂商进入以及传统数据库企业云转型成效优劣的影响。类比来看,我们认为,未来原生于AI的新工具类软件厂商进入,以及现有厂商融合AI的速度和能力优劣也可能重塑市场竞争格局。
► 价值分享角度,底层基础设施厂商提供通用能力,上层应用厂商聚焦垂直场景。 云计算产业链中,IaaS、PaaS层厂商提供通用软硬件基础设施能力,SaaS层厂商聚焦于提供垂直功能应用。类比来看,AI底层平台型厂商提供通用大模型能力,上游工具类软件厂商寻找适合AI赋能、变现的落地场景。而在AI所需的算力成本方面,我们认为AI厂商将会承担训练成本,而后续的推理成本则会由AI厂商与应用软件厂商共同承担(类似于云计算的租用云计算资源,未来的AI产业会是租用模型和算力)。
图表:长期来看,AI有望与云计算一样带来工具软件的商业逻辑重塑
“上云”已成为应用软件的“必修课”,我们认为未来“AI+”也可能成为应用软件标配。 目前支持云部署已经基本成为软件厂商的必备能力项,在2010年以后成立的多数软件公司均选择了云原生的技术路线;而传统软件企业亦积极转向云端,并在商业模式上也向订阅制转型。而从应用软件对AI的融合应用来看,同理我们认为也“AI+”有望成为新一代应用软件的标配,而应用软件厂商也将在与AI厂商的探索与磨合中形成新的一套成熟的商业模式。
商业模式重塑之后,云计算促进应用软件的价值重估,未来AGI同样可能带来新一轮价值释放。 云计算通过软件开发、部署、交付、收费方式变化,催生商业模式与业务逻辑升级,进而引发资本市场对于工具软件乃至整个应用软件行业的价值重估。我们认为,长期来看,未来创成式AI赋能工具软件可能带来新一轮的价值释放。但短期来看,由于目前大模型仍存在诸多缺陷,下游应用及增量付费场景仍在探索中,版权、法规上亦有进一步讨论明确的必要,因此我们的上述猜想在未来演进方向上仍存在较多不确定性,需要持续跟踪、观察。
总结来看,AI融合工具软件想象空间宽广,但实际落地仍有诸多挑战,我们强调短期不夸大、长期不低估的观点。 AI融合工具软件想象空间宽广,但最终落地实现仍需依赖底层算力与大模型算法演进迭代,同时尚有法律、伦理相关问题有待讨论、解决。我们认为,AGI应用的前途是光明的,但道路是曲折的,我们强调短期不夸大、长期不低估的观点,建议投资者持续关注跟踪最新产业趋势,并对AI融合工具软件可能的各大应用场景保持关注。
图表:AIGC关键技术持续突破,AI融合工具软件想象空间宽广,我们强调短期不夸大、长期不低估的观点
资料来源:OpenAI官网,《Denoising Diffusion Probabilistic M 创成式AI赋能工具软件的产业实践与应用趋势
创成式AI与文字创作:ChatGPT有望加速AI文字创作落地
创成式AI能够在文字创作场景下完成写作、改写、修正、翻译等功能。 AI可以借助互联网广泛的文本数据对文字创作工具进行训练,目前Transformer大模型在自然语言场景下的应用能力已经相对成熟,我们认为文字创作有望成为创成式AI快速落地的应用场景。我们观察到Notion、微软等已经开始将AI语言模型接入笔记和办公软件;第四范式也推出了面向企业客户的AIGC工具,办公软件龙头金山办公在中长期来看也有望实现AI赋能,提升文字创作效率。我们认为创成式AI在文字创作场景下主要能够实现四大能力:
► 写作: 基于海量的语料库,Transformer神经网络拥有语言理解和文本生成能力,因此可以根据使用者的简单指令生成逻辑连贯、事实丰富的语段;
► 改写: 与普通规模的语言模型相比,大型语言模型拥有一定推理能力,能够形成思维链来解决抽象问题,因此可以根据用户要求完成文本改写任务;
► 修正: 通过在海量文本数据中对比学习和总结规律,创成式AI可以纠正所给文本的拼写、语法、标点等错误,使修改后的文本更加符合常用语言范式;
► 翻译: 创成式AI可以利用循环神经网络和卷积神经网络拆解结构复杂的语段并联系上下文进行翻译,从而大幅提升翻译的整体性、准确性和可读性。 图表:创成式AI在文字创作场景中的四大能力
案例1:Notion AI优化文字创作
Notion AI能基于简单指令生成丰富的文字内容。 Notion AI是用于Notion产品的人工智能工具,通过集成机器学习和NLP技术,帮助用户提高文字创作的效率和体验。在AI大规模语言模型赋能下,用户只需要罗列出基本需求,产品即可自动生成丰富的文字内容,文字内容的类型覆盖会议议程、销售邮件、新闻发布稿等多种场景。Notion AI还拥有总结、改错、翻译、续写、头脑风暴等功能;后续Notion AI还将会成为Notion知识库的接口,用户只需要输入搜索要求,Notion AI即会自动呈现相关信息。我们预期Notion AI的自动文本生成、文本摘要、文本编辑等功能或将大大优化用户的创作流程和使用体验,帮助Notion的产品力实现跃升。 案例2:微软AI与Office的融合计划
AI赋能下微软Office料将优化产品体验。 微软2019年以10亿美元投资OpenAI并与之建立了较为深入的合作关系,近期微软计划将OpenAI的下一代语言模型整合进Office办公软件中的Word、PowerPoint、Outlook等应用程序,用户只需要输入简单指令,即可获得自动产生的文字内容。新版Office将拥有自动总结、内容建议以及文本生成功能,可提供类似Bing-ChatGPT侧边栏的体验,用户可在侧边栏中与聊天机器人交互。
庞大用户规模和训练数据有望助力Office AI应用能力快速迭代。 Office办公软件用户规模优势明显(21年PC版全球装机量15亿套),我们认为OpenAI的人工智能技术与Office软件的融合一方面能让AI找到优质的落地场景;另一方面,Office软件庞大的用户规模有望为AI提供源源不断的海量训练数据,从而形成飞轮效应,不断改善AI的文字创作体验。
案例3:模力表格提供内嵌于表格场景的AI文字处理应用
模力表格通过AI大模型实现表格中文本内容的“批量化计算”。 模力表格由面壁智能公司和大模型开源社区OpenBMB(主要成员来自清华大学)联合开发,其将AI大模型的文字处理能力嵌入到函数中,通过在表格中输入函数即可调用模型,目前支持的函数包括IE(信息抽取)、QA(问答)、MT(翻译)、SA(情感分析)、TG(标题生成)等,同时支持和Excel基础函数集成使用。我们认为通过表格中的AI文字处理应用能够实现文本批量化计算,大幅提升办公效率。
图表:模力表格实现表格场景下AI文字处理能力
资料来源:OpenBMB开源社区微信公众号,中金公司研究部 案例4:第四范式满足企业场景AIGC需求
第四范式推出企业级类GPT产品“式说”,助力企业利用内部知识解决问题。 第四范式通过将类GPT语言模型与垂直领域知识进行融合,推出“式说”产品,旨在解决大型生成式语言模型在企业内部使用场景下的局限,满足企业场景下的AIGC需求。“式说”主打三大产品特点:1)数据安全,通过私有化部署解决企业客户对数据安全的顾虑;2)内容可信,“式说”基于企业内部数据库,并且在提供回答时标注信息原始出处,增加了回答的可信性和可靠性;3)成本可控,“式说”算力成本相对可控,而且对数据标注量的需求较小。我们认为“式说”这类服务于B端客户的AIGC工具能够助力实现企业知识复用,提高企业生产和管理效率。
图表:第四范式“式说”产品工作界面
案例5:竹间智能借助AIGC赋能写作&对话&知识搜索等多场景
竹间智能推出类ChatGPT产品,赋能企业级AIGC应用。 公司成立于2015年,为金融、企业、健康医疗、制造、智能终端、政务六大领域提供AI赋能解决方案。2022年9月公司推出AI SaaS产品,涵盖客户服务、销售服务、企业内部服务等多场景,为中小企业提供云端AI工具。在AIGC领域公司亦持续深耕,先前已推出Magic Writer等多款智能创作写作软件,并于近期推出企业级Gemini GPT产品系列,包括企业对话机器人KKBot、交互式认知搜索引擎ChatSearch,在销售客服、人机交互、知识探索等方面借助AI实现全面赋能。
案例6:印象笔记借助自研轻量化大模型辅助文字创作
基于自研“大象GPT”模型,推出“印象AI”创成式文字工具。 2019年以来,国内笔记应用厂商印象笔记发力AI在笔记文字处理中的AI应用场景,陆续推出了智能推荐、智能标签、智能摘要、知识星图等AI工具。印象笔记同时持续投入大模型研发,于2023年推出了结合OPT、BLOOM等类GPT-3.5结构大语言模型自主研发构建的大语言模型“大象GPT”,并基于此推出“印象AI”创成式文字工具模块内嵌于自身的笔记产品中,实现了国内厂商通过自研模型实现AI文字创作的先发应用。未来印象笔记计划利用基于人类反馈的强化学习(RLHF)来优化模型,并计划与私人语料结合赋能具备个人风格文字创作。
案例7:Minimax打开C端落地新场景
区别于ChatGPT的专业知识问答,MiniMax推出的Glow主打聊天社交功能。 公司成立于2021年年底,已自研文本到视觉、文本到语音、文本到文本三个模态的通用大模型。2022年11月,MiniMax推出首款AI对话机器人平台Glow,用户可选择已存在的智能体进行对话,或者通过简短描述创造智能体并在后续对话中实现优化调整,智能体的对话生成、人物头像生成、音色生成调用了MiniMax三大模态模型的能力。区别于ChatGPT聊天机器人倾向于问题搜索、文本生成等功能,由Glow生成的智能体拥有不同的背景和性格设定,与用户对话的内容也偏向于闲聊陪伴、情感互动、剧情演绎。我们认为,MiniMax的聊天机器人与用户交互效果较好、具备较强的用户粘性,打开C端落地新场景。
案例8:金山办公潜在的AI应用场景
金山办公在AI领域已有扎实布局。 国内办公软件龙头金山办公在计算机视觉、自然语言处理、语音处理等AI领域也都有广泛的技术与业务布局。公司自2017年开始搭建AI中台,围绕办公领域已经开发出近100项AI能力。在自然语言处理方向,金山办公已经开发出辅助写作功能,用户只需提供一个提纲,AI即可基于语料算法自动生成文本,用户可以将AI生成的文本作为底稿,大大提升写作效率。此外,金山办公也已实现AI校对、翻译、纠错等功能,并将其作为WPS办公软件套件的重要增量功能。
我们判断金山办公会在紧跟AI产业趋势的同时,适时切入跟进。 我们判断金山办公会把主要发力点瞄准AI应用端。公司现有产品WPS积累的用户量级大、用户场景多样且复杂度高,我们认为金山办公若能深挖用户场景,将可以在邮件、办公、营销、政务、文学等各个细分场景中提供相应的AI文字创作服务,提升用户使用体验,加深产品护城河。未来我们判断公司会在充分考量国内各家AI大模型厂商的能力之后,适时尝试接入应用,尽可能地发挥AI大模型在办公软件领域的应用潜能。
创成式AI与音频生成:跨模态应用进军音频行业
海外案例1:谷歌不同团队均有音频生成研究成果
谷歌在2023年发布了不同的音频生成模型,并且有各自的特点。 在此之前也出现过相关AI创作音乐的尝试,如可视化音乐创作模型Riffusion、谷歌发布的AudioML和OpenAI推出的Jukebox。而现在的研究成果基于Diffusion模型、标注好的音频数据,通过提取数据特征、文本和音频的配对,实现文本生成音频。
► MusicLM: 这是一种从文本描述中生成高保真音乐的模型,例如用户可以输入“平静的小提琴旋律伴随失真的吉他即兴演奏”。MusicLM将条件音乐生成过程转换为层次化的Seq-to-Seq建模任务,并能够保持24 kHz的频率生成一段几分钟的音乐,无论是文本描述还是音频质量都优于之前的模型。此外,MusicLM还能够基于文本的描述转变原来的旋律、根据图片画作和文字描述生成对应的音乐伴奏。
► Noise2Music: 连续应用Diffusion模型生成24kHZ的音频片段,使用两个深度模型伪标记大型伪标记音频数据集生成训练集,大预言模型生成音乐描述性文本,嵌入预训练的音乐-文本联合模型,通过zero-shot分类为音频分配相应文本。Noise2Music可以理解更加复杂的prompt语义,生成不同风格,如“一位女低音在现场表演中演唱一首慢速爵士民谣”;或者模仿不同的乐器,如钢琴、萨克斯、非洲鼓等。
► SingSong: 该模型可以根据人声自动生成伴奏,其技术基础建立在人声的音源分离和音频生成上。用户只需要输入其人声,就可以获得对应的乐器伴奏。研究人员召集了一批听众评估模型的效果,展示两个具有相同人声的10秒伴奏音频,SingSong获得的反馈明显优于其他基线模型。
海外案例2:英国学术机构提出AudioLDM,提升质量并优化算力消耗
AudioLDM模型解决了“文本到音频”的研究存在的质量有限、计算成本高的问题。 英国萨里大学和帝国理工学院联合发布并开源了一个基于去噪扩散隐式模型和对比学习的框架:AudioLDM。该模型提升了文本生成音频的质量;训练过程中仅仅需要文本数据就达到了比使用音频-文本相当甚至更好的效果;此外模型训练计算资源消耗低,并且不需要额外训练就可以对声音风格进行变换或者模仿。
国内案例1:科大讯飞推出全新训练框架优化语音韵律
科大讯飞推出SMART-TTS框架并上线讯飞开放平台、讯飞有声以及学习强国。 SMART-TTS不直接学习文本与音频特征的映射,而是通过模块化拆解语音合成的学习过程,预训练加强各个模块。该框架可以提供“高兴、抱歉、悲伤”等11种情感,每种情感有20档强弱度调节;也能提供声音的停顿、重音、语速等,可以在数字人语音上实现真人表达的感情。此外,科大讯飞的语音合成支持37个语种、11种方言、2种民族语言以及中英混合自然合成。
国内案例2:国产AI语音生成“独角兽”云知声
除了文本生成音乐以外,语音合成也是音频生成的重要方向。国内“独角兽”云知声提供语音合成产品服务,包括文本语音合成、音库定制和声音克隆。 其中,语音合成可以将文本转换成自然流畅的语音,提供更多音色、不同情感并提供调节音量、语速、音高等功能;音库定制主要面向企业客户,提供定制化的音库服务,通过深度学习生成专属IP发音;声音克隆可以通过录制少量的用户声音,快速得到音色和发音风格与录音相似的声音模型。这些功能适用于智能客服、智能硬件、新闻播报、自媒体配音等各种有声场景。
创成式AI与图片创作:跨模态带来丰富想象空间
2022年,随着CLIP、Diffusion大模型的诞生与开源,DALL·E 2、Stable Diffusion模型落地进一步推动,文本生成图像等跨模态生成成为AIGC落地主线。 OpenAI具备大模型基础、开源数据库中海量图文对应数据、头部厂商的算力支撑以及门槛降低三要素条件后,发布升级版“文生图”模型DALL·E 2,将AI作画(文本跨模态生成图像)推向落地,掀起AI作画浪潮;2022年8月,Stability AI开源Stable Diffusion模型,标志着AIGC在AI作画领域跨模态应用的门槛大幅降低,开启全民创作的“工业化生产”时代。海外应用层在此基础上催生出Midjourney、ChilloutMix、Controlnet等精调模型、插件,不断提高生成图像质量,逐步推动AI图片创作商业化。
海外案例1:“文生图”开山者DALL·E及DALL·E 2
DALL·E由OpenAI率先推出,并于2021年通过Azure OpenAI服务开始将其技术商业化,2022年4月发布升级版DALL·E 2。 凭借OpenAI在2021年发布的基于GPT-3的图像文本匹配模型CLIP,DALL·E 2具备了联系文本和视觉图像的能力;又通过基于Diffusion的图像生成模型GLIDE,DALL·E 2能够按照文本生成逼真的图像,分辨率提升了4倍,准确率更高,并且业务更广,具备三种功能:1)根据文本提示生成图像,2)以给定图像生成新图像,3)以文本编辑图像元素。
DALL·E 2目前采取付费购买次数的商业模式: 加入Open Beta项目后,首月50个免费点数,每一个点数对应一次绘图,之后每个月免费补充15个点数,目前的价格是15美元115个点数。相较于DALL·E,DALL·E 2不仅能够生成更真实、更准确的图像,还能够更完整地表达场景并通过自然语言描述对现有图像进行增删元素等编辑。而相较于该领域内其他模型,DALL·E 2的可控性较高,空间结构关系处理优异,高写实的图像仿真度较强。DALL·E 2的技术成熟和率先落地将AI作画从想象照进现实,2022年7月,DALL·E 2开启邀请制公测,为AIGC在2022年热度提升的重要推动力。
海外案例2:Stability AI开源Stable Diffusion,以AI作画对外输出
Stability AI成立于2020年,2022年凭借推出并开源Stable Diffusion的底层能力,投后估值超10亿美元,在种子轮融资阶段即晋升为独角兽。 Stable Diffusion主要基于潜扩散模型(Latent Diffusion Model),通过迭代“去噪”输入并解码输出来生成图像,使用空间降维解决内存和模型推理时长痛点,不仅使用户仅在消费级显卡上就能够快速生成高分辨率、高清晰度图像,而且建立开源生态,大大降低用户的使用门槛。至此,开源生态推动AIGC的数据、模型与算力问题初步解决,直接降低了使用者的门槛,渗透进多个垂直领域。
海外案例3:成功变现的商业模式,AI作图现象级应用Midjourney
Midjourney基于CLIP和Diffusion构建了闭源的“文生图”模型,已实现1000万用户和超1亿美元营业收入。 该产品搭载于Discord社区,用户通过将Midjourney机器人邀请至频道内,并输入以“/image”为开头的prompt生成想要的图片。Midjourney拥有超1000万名社区成员,通过用户对生成结果的选择来获取反馈,从而具备了庞大且独特的数据集,建立起竞争壁垒。Midjourney生成的图片所需prompt较短、质量高、具有科幻色彩,受设计人群、Web3 & NFT从业者以及个人用户喜爱,采用SaaS付费的商业模式,已经实现盈利。
比起海外前沿技术,国内的AI图片创作落地相对早期,但相应成果也取得了一定的进展,涌现出一批创新的产品和技术。 其中以百度的文心·一格、万兴科技的万兴爱画为代表,不仅展现了国内拥有人工智能作画的能力,同时进行创新研发出“AI简笔画生图”,拓展了创作的交互方式,提高了用户使用的效率和体验。
国内案例1:百度基于文心大模型,AI作画能力对标海外
文心·一格是百度依托飞桨、文心大模型推出的首款AI作画产品。 该产品支持文本生成国风、油画、水彩、水粉、动漫、写实等十余种不同风格的图像,为专业内容创作者提供创作平台的同时为入门级用户、大众用户实现想象力落地提供可能。而面对应用落地的三重挑战:创作需求理解、图像原创生成和创作需求满足,文心·一格进行了三大技术创新,分别是基于知识的prompt学习、文本跨模深度融合和文本驱动的图像编辑,实现了创意规划、细节刻画能力和多轮交互提升质量。
国内案例2:万兴科技深耕AIGC作画,OpenAI赋能国内厂商的案例标杆
万兴科技深耕海外业务20年,接入OpenAI的API,打造出面向绘图创意领域的新型创作神器:万兴爱画。 万兴爱画定位于专业打造“AI生成高品质艺术品”,提供随机生成与关键词创作两种AI文生图模式,用户可以自行输入关键词、选择图片比例和艺术风格,30秒就可以获得由AI生成的绘画作品,作品支持各种艺术风格,比如手绘、赛博朋克、二次元、CG数字渲染等。而且产品支持中文和英文双语创作,通过感叹号和括号强调关键词。
2023年2月,万兴爱画在业界率先推出“AI简笔画”。 该产品成为全球首款通过用户交互并以此“图生图”的AI作画软件,标志着万兴爱画助力AI绘画进入新时代。相比之前的作画方式,简笔画对用户原先的prompt要求更低,如今只需简单几笔就能在5秒内生成高质量艺术画作;用户同样可以通过图片选择反馈使模型迭代升级。通过简笔画“图生图”,用户在创作中更具参与感,过程也更有趣味性。 图表:万兴“AI绘画”创作界面
创成式AI与视频创作:跨模态阶跃尚处早期,有望打开应用天花板
海外科技巨头的标杆案例打开AI视频创作的想象空间。 2022年9月,Meta发布了从文本生成视频的Make-A-Video,能够基于几个词或句生成数秒的短视频。仅一周后,谷歌发布Imagen Video、Phenaki,分别定位于生成高画质、长时段视频。目前AIGC跨模态生成视频领域仍存不足,利用AI生成的视频有明显的缺点,例如物体的模糊与扭曲,也不能生成更长的场景来详细、连贯的讲述故事,但我们认为AIGC视频生成有望在技术上实现突破,打开应用天花板。
案例1:Make-A-Video实现文本与视频之间的跨模态生成
Make-A-Video能够基于文本生成视频。 Make-A-Video是2022年7月Meta发布的文本生成图像模型Make-A-Scene的进一步升级。通过向Make-A-Video输入文本即可生成数秒的视频,支持不同的视频风格。除了文本生成视频,Make-A-Video还能够实现输入单个或两个图像来创建运动,即图像生成视频。
案例2:谷歌在视频的跨模态生成领域不断产出成果
谷歌在文本生成视频、图像生成视频均有涉猎。 谷歌在Meta推出Make-A-Video一周后,推出了Imagen Video和Phenaki,其中Imagen Video画质较高但生成视频时长较短,Phenaki生成视频的画质较差但能生成超过2分钟的视频;2022年11月,谷歌首次发布将二者相结合的视频,兼顾品质与长度。2023年2月2日,谷歌提出视频编辑新方法Dreamix,能够实现对已有视频的编辑和通过提供图片与描述生成视频。
案例3:Runway推出的GEN-1模型在生成视频质量上更胜一筹
由GEN-1模型生成的视频风格多样化。 Runway成立于2018年,是Stable Diffusion的联合发布方之一。2023年2月,Runway推出AI视频生成模型GEN-1,通过将图像或文本提示的构图和风格应用于源视频的结构上以合成新视频,在生成视频的画质和长度上再迈进一个台阶。
国内厂商:亦处于早期探索期,辅助创作效率提升
国内厂商在生成视频领域也处于早期探索期。 国内厂商在视频领域应用AIGC技术更多落在视频内容创作及品质升级的层面,实现视频的属性变化与“流水线式”内容创作,目前多应用于B端、为内容创作者提供生产效率的提升。
► 文本生成视频: 2022年5月,清华大学联合智源研究院发布基于Transformer架构的CogVideo模型,该模型是业内首个开源的文本生成视频AI模型,但生成视频的分辨率较低、长度也较为有限,目前只支持中文输入。
► 画质增强与修复: 当虹科技在画质增强类产品已较为成熟,其中包括视频插帧、视频细节增强、提升视频画质、老旧影像的修复与上色等。
► 视频自动创作: 百度孵化的智能视频创作工具VidPress支持导入图文链接后自动实现配音、字幕、画面的视频内容生产,目前已为人民日报等媒体机构、百家号和好看视频等平台的终端用户提供智能生成视频功能。
► 智能脚本创作: 商汤智影推出的“视频元素分析”能够提取并分析视频中多种元素,例如人物、场景、道具、台词等信息,自动生成分镜头脚本,准确率达98%,并提取视频爆款元素,有效减少脚本撰写时间,助力广告厂商节约内容制作成本。
受限于技术成熟度,AI独立创作的视频仍无法直接实现2B端落地变现,但目前已经在辅助商业化创作的过程中发力。 2023年1月31日,Netflix与小冰公司日本分部(rinna)、WIT STUDIO共同创作的首支由AIGC技术辅助的发行级别动画片《犬与少年》正式发布,该动画全长3分多钟,使用AIGC完成部分场景绘制,证明了AI技术在辅助视频创作过程中已经开始实现商业化落地,但距离真正应用到大型项目、实现商业化变现仍有距离。
此外,基于自研稀疏模型在垂直领域落地的厂商具备多模态矩阵,以出门问问为例,打造文本、图像、语音、视频、数字人等多模态AIGC产品矩阵,布局提供一站式内容生成工具。 出门问问于2020年推出其第一款AIGC商业化产品——配音平台“魔音工坊”后,全面布局AI声音、AI写作、AI图片生成、声音与形象克隆、数字人视频等AIGC领域,多点开花聚焦广泛的商业场景。
创成式AI与3D模型创作:以参数化建模为基,GPT文字处理赋能
工业场景的3D建模对AI能力要求较高,现阶段创成式设计无法完全支持。 区别于图片和视频的创作,3D模型主要用于生产工业场景,需要更加严谨理性的建模创作能力,而目前ChatGPT等AI工具的数学和逻辑能力有所欠缺,因此通过文字描述进行创成式AI直接建模的进展相对较慢。另一方面,大装配场景如飞机、船舶等模型的设计需要非常严谨的过程和参数,我们认为创成式AI设计在这类大型场景下的支持能力有限。目前我们观察到AI在3D CAD领域和EDA领域的主要落地仍然以“AI Inside”赋能为主。
3D CAD中的创成式设计:以参数化建模为基础的AI Inside赋能
3D CAD场景下的创成式设计(Generative design)主要借助AI的能力生成大量可供选择的模型。 根据PTC官网介绍,三维模型场景下的创成式设计主要是通过设计师给定约束条件(包括空间、材料、制造方法、成本约束等)和目标,借助AI的能力来快速生成满足需求的目标模型,供设计师从中选择合适的模型进行进一步设计和优化,从而显著提升设计效率。我们观察到目前3D CAD中的AI应用主要分为两类:
► AI辅助参数优化: 通常用于3D CAD模型的改进过程,基于CAE仿真结果(如部分零部件应力过大或形变明显),可以通过对其他部位添加约束,对拟优化零部件生成大量潜在参数并进行选择,最终得到优化的结果。
► AI实现草图生成: 如Catia和Solidworks的Xdesign模块就引入了AI辅助创建草图功能,通过给定参数和材料得到系统给出的推荐的形状。其一定程度上能够帮助工程师进行底层几何图形,从而加快整体的设计进度。
3D CAD创成式设计基础是参数化建模。 实际上参数化建模由来已久,1987年PTC公司发布的Pro/E首次引入了基于历史的参数化建模,至今主流3D CAD产品均有参数化建模功能。无论是AI辅助参数优化还是实现草图生成,其本质上都是基于给定的限制条件生成大量参数,进而基于这些参数生成设计方案供设计师选择。目前主流3D CAD产品如Catia、NX、Pro/E、Solidworks、SolidEdge等均具备AI模块,实现辅助设计功能。
EDA中的AI Inside:基于已有设计数据实现设计效率优化
AI赋能有望助力芯片设计实现真正的“自动化”。 目前的EDA工具,即使是更加自动化的数字芯片设计流程中仍然需要大量设计师的人工操作场景,我们认为AI带来的自动化程度提升有望减少设计过程中的重复性劳动,进一步解放设计师的生产力。目前AI对EDA设计工具的赋能可以分为AI Inside和AI Outside两个层面:AI Inside一般指AI赋能相应的设计软件,让设计工具更加智能和高效;与之相对应的则是AI Outside,即为让机器通过学习来积累经验,从而一定程度上能够代替人工成为新的“生产力”。
芯片设计后端(尤其是布局布线)是AI Inside在EDA中的主要应用场景。 在数字芯片设计流程中,设计后端最重要的布局布线环节涉及逻辑器件的物理形状和摆放方式,工程师需要考虑综合考虑网表图节点、网格粒度、布线密度等多重因素。因此布局布线通常是数据芯片设计中的高耗时环节,通过AI的图像识别和优化算法有望实现设计效率的显著提升。目前海外Cadence、Synopsys等EDA头部厂商均具备AI Inside赋能芯片设计的能力:
► Cadence: 2020年3月Cadence发布了更新版数字全流程工具,通过iSpatial技术整合布局布线工具Innovus和前端的物理验证Genus工具实现打通,并集成机器学习技术,用户可用现有设计数据对iSpatial进行训练,实现布局布线流程中设计裕度的最小化。
► Synopsys: 2020年Synopsys发布用于EDA的AI应用程序DSO.ai。根据公司官网介绍,设计空间优化(DSO)借助机器学习算法搜索大型设计空间,可用于优化芯片设计工作流程的输入参数和选择,以满足特定项目的确切需求[1],我们认为其本质上类似3D CAD模型设计中的参数优化功能。
展望未来,AI Outside有望在更高层面实现真正的“芯片设计自动化”。 与AI Inside赋能EDA工具的理念不同,AI Outside则更加关注工具使用者的维度,指EDA工具通过学习人类的设计模式并积累设计经验,最终达到减少人工干预和释放生产力的效果。目前Synopsys和Cadence在AI Outside助力实现设计自动化上均有所探索,我们认为现阶段实现AI Outside面临的主要阻力在于数据获取成本。AI Outside训练过程对芯片数据可靠性要求较高,而芯片设计公司的数据较难获取,我们认为EDA公司依靠和晶圆厂的绑定关系或有望通过工艺数据实现训练,逐步向AI Outside目标迈进。
创成式设计与GPT大模型的融合:从文字到模型的潜在路径
创成式设计和GPT大模型的融合畅想:文字描述参数化。 我们认为GPT等大模型在3D模型设计方面仍然有较大的应用空间。未来的潜在的方向可能是借助ChatGPT的文字处理能力来理解设计师的文字需求,即为将文字描述理解和转化为一系列的模型参数,通过3D CAD创成式设计得到相应的模型设计方案。
► 创成式设计是当前已经存在的技术储备。 目前3D模型的创成式设计已经能够实现参数优化和草图的生成,我们认为随着技术逐步完善,从给定参数到3D模型生成这一步骤或许不是从文本到模型的瓶颈。
► 文字到参数的转化是文生模型过程中的最大难点。 目前的Transformer模型更加擅长场景是自然语言处理,我们认为将文本转化为设计师需要的参数是较大的难点,打通文本描述到参数描述的瓶颈有望为文本到模型的实现铺平道路。2021年Deepmind论文论述了图形和序列打通的可能性,借助Transformer模型自然语言处理能力实现CAD草图生成。
DeepMind借助Transformer模型自然语言处理能力实现草图绘制。 草图设计是构成3D模型的骨架,其通过特定的约束来定义了实体如何在参数变换下保持原有的形状。DeepMind在2021年发表论文,论述了CAD草图绘制和自然语言建模的相似性,提出了能够自动生成CAD草图的机器学习模型,在无条件合成以及图像到草图的转换任务中表现良好。论文的亮点在于实现了图案和序列的对应,从而能够应用Transformer大模型实现对序列的处理。我们认为随着Transformer大模型应用逐渐深入,其与CAD融合应用或将持续推进,未来或将诞生基于文本实现更高级别模型生成的应用。风险
技术进展不及预期: 人工智能作为前沿新兴技术,仍处于技术的快速发展期,其进展有一定的不确定性,若技术进展不及预期,可能导致产业化进展缓慢。
商业化落地节奏不及预期: 商业化落地是人工智能能否顺利走向下一阶段的关键点,若商业化落地节奏不及预期,对人工智能的进展将带来负面影响。
行业竞争加剧: 人工智能是产业的热点,未来商业价值显著,科技巨头、初创公司均在此领域布局,未来垂类及应用层的行业竞争可能会进一步加剧。
编辑/irisz
作者:於鍾海、王之昊、魏鸛霏、韓蕊、胡安琪、譚哲賢
來源:中金點睛
ChatGPT向AGI更近一步,通用人工智能賦能應用軟件成為可能,其中與工具軟件結合想象空間寬廣。 對應用軟件廠商而言,接入AI大模型短期成本低,長期想象空間大,因此我們觀察到絕大多數應用軟件廠商均積極接入大模型能力。目前,以ChatGPT為代表的AI大模型能力主要在於人機交互對話AI以及創成式AI,其與應用軟件的結合主要涵蓋AI+工具類軟件、AI+搜索引擎、AI+服務類應用、AI+垂直行業應用等方向。我們認為其中創成式AI與工具類軟件具有天然契合性,下游應用場景、想象空間廣闊。
短期維度:融合創成式AI提升生產效率,成為工具軟件競爭的新焦點。 目前創成式AI主要以嵌入現有工具軟件的方式幫助用户提升生產效率,在文字(如Notion AI)、圖片(如Stable Diffusion、Midjourney)、視頻(如Make-A-Video)、3D模型創作、音頻等領域已有眾多廠商參與探索實踐。我們認為,產品價值角度,AI融合應用的功能或將成為工具軟件的增量付費點;競爭角度,原生於AI的新興廠商、傳統廠商對AI應用融合的跟進速度都將使現有格局產生變化。但隨着創成式AI應用的普及,未來AI融合工具軟件可能成為“標配”,屆時AI融合場景的應用深度將成為競爭新焦點。
長期維度:創成式AI或將重塑商業邏輯,實現生產工具向生產力的躍遷。 理想情況下,我們認為,未來真正的AGI將能夠不依賴於人類用户的命令與引導進行創作,AI賦能下的工具軟件有可能完成從生產工具提供方向生產力提供方的轉變,屆時底層AI能力提供方與工具軟件廠商將共同參與生產價值的分配。為了更好地理解長期視角下AI對於商業邏輯的重塑,我們將AGI從產業結構、商業邏輯、競爭格局和價值分享角度與雲計算進行對比分析,我們認為正如目前“上雲”已成為應用軟件的“必修課”,未來“AI+”也可能成為應用軟件標配,並帶來新一輪價值釋放。風險
技術進展不及預期、商業化落地節奏不及預期、行業競爭加劇。
正文 AGI大模型漸入佳境,創成式AI深度賦能工具軟件
ChatGPT向AGI更近一步,通用人工智能賦能應用軟件成為可能
ChatGPT掀起全球AI熱潮,通往AGI的道路亦或將近。 ChatGPT(Chat Generative Pre-Trained Transformer)是由OpenAI開發的人工智能聊天機器人程序,其基於GPT-3.5大模型,能夠完成相對複雜的語言處理任務,包括人機對話、自動文本生成、自動摘要、編寫代碼等,在2022年11月推出,上線兩個月後用户數量即達到1億規模,在全球範圍內掀起又一輪AI熱潮。ChatGPT的火爆讓業界意識到AI行業在通往AGI(通用人工智能)的路途上更近一步,進而也引發了世界範圍內對AGI未來會如何重塑各行各業的討論與暢想。
全球範圍內各類應用軟件廠商積極擁抱以OpenAI為代表的人工智能新生態。 在ChatGPT推出之後,微軟計劃對OpenAI追加100億美元投資並在旗下搜索、辦公軟件中探索融合應用場景。由於ChatGPT顯現出的巨大應用潛力與可能性,全球廣大應用廠商也均開始積極嘗試接入OpenAI的技術接口,以期AI與其現有產品能夠產生新的化學反應。國內市場亦快速跟進,百度宣佈旗下對標產品文心一言將於3月完成內測、面向公眾開放,目前國內已有上百家企業宣佈接入文心一言,其中不乏漢得信息、金蝶、宇信等企業服務軟件廠商。同時,我們預計國內外將持續出現更多的大模型,吸引更多的應用軟件廠商豐富、壯大AI生態。
對於應用軟件廠商而言,接入AI大模型短期成本投入較低,長期想象空間較大。 由於目前ChatGPT等大模型均在發佈初期,商業模式探索亦剛剛起步,現階段重點在於生態構建而非商業變現,因此無論是OpenAI、百度還是其他大模型廠商,短期對於應用軟件廠商的接口調用均保持開放態度。這意味着,對於應用軟件廠商而言,其短時間內接入AI的成本不高,而AI對其產品形態以及商業邏輯長期能夠帶來的積極變化卻頗具想象力,因此我們觀察到絕大多數的應用軟件廠商均積極接入大模型能力,相關應用軟件數量正呈現指數級擴張的態勢 。
目前以ChatGPT為代表的AI大模型能力主要在於人機交互AI能力以及創成式AI能力等,而其與應用軟件的結合主要涵蓋以下幾個方向:
► AI+工具類軟件:輔助文字、圖片、視頻生產。 AI與創作工具類軟件的融合應用主要發揮的是ChatGPT等LLM大模型的創成式AI能力,其能夠基於用户輸入的指令和引導完成文字生成、圖片生成、視頻生成等輔助創作類任務。目前典型的應用代表包括文字類的Notion AI、Office(微軟計劃將ChatGPT接入);圖片類的Stable Diffusion(Stability AI旗下)、Midjourney、DALL-E(OpenAI旗下)、Imagen(谷歌旗下)和視頻類的Designs.ai、Make-A-Video(Meta旗下)、Lumen5等。
► AI+搜索引擎:藉助自然語言處理將傳統的搜索點擊轉變為互動問答形式,並生成個性化結果。 AI與搜索引擎的結合發揮的主要是基於自然語言處理的人機交互對話能力,以問答的形式幫助用户解決問題,即時生成個性化的規劃、建議、分析等。典型代表包括接入ChatGPT能力後增加互動聊天和輔助寫作功能的微軟NewBing搜索引擎。
► AI+服務類應用:發揮人機交互能力改善自助式服務體驗。 AI與服務類應用的結合主要以自助問答聊天機器人的形式落地,發揮LLM大模型的人機交互能力。典型代表包括電商、遊戲、地圖等各類服務應用場景中的智能問答、幫助機器人。
► AI+垂直行業應用:與現有垂類行業應用結合,本質上亦歸屬於上述三種形態。 典型代表包括宇信、漢得、金蝶、恆生電子等,融合大模型的人機交互、創成能力,實現更高效的信息獲取、分析、形成智能解決方案等。我們認為,其本質上亦可以歸類為上述三種形態中的某一種,未來需要進一步探索如何與垂直場景進行更好的結合,針對行業性語料進行更深度的訓練以發揮更好的效果。
圖表:AI大模型與應用軟件的主要融合方向
資料來源:各公司官網,中金公司研究部 應用軟件廠商在AI領域的投入將更專注於AI應用場景的探索以及與現有應用的融合。 從整個AI產業鏈的分工來看,我們認為未來大模型廠商將會承擔絕大部分的底層算法開發優化工作,而應用軟件廠商則會更專注在應用場景的發掘、深耕,以及與現有AI大模型更深度的融合應用。對於通用人工智能未來能否實現產業化,我們認為先進的底層大模型以及與之相匹配的上層應用均缺一不可,AI廠商與應用軟件廠商未來將會有更加緊密合理的分工合作。
在上述的應用方向與場景中,我們更為關注創成式AI與工具軟件結合的可能性。 以ChatGPT為代表的大模型應用中,創成式AI是較為突出的能力,且與現有的工具類軟件(文字創作工具、圖片創作工具、3D模型創作工具等)具有天然的契合性,下游應用場景廣闊、頗具想象空間。因此在本篇報告中,我們將主要聚焦於創成式AI對工具軟件的賦能,以及其長期重塑工具軟件底層商業邏輯和產業生態的可能性。
創成式AI賦能工具軟件將為其創造哪些可能性? 從短期維度來看,目前創成式AI主要以嵌入到現有工具軟件中的方式,作為創新性的輔助功能來幫助用户提升生產效率,廠商可以將其作為增值服務來額外收費;但從長期來看,如果未來創成式AI能夠實現不依賴於用户引導的主動式創作,則其有望實現從生產工具向生產力的蜕變,真正意義上替代部分“創作人員”的工作。因此我們對於創成式AI的態度是,短期保守,長期不低估。 圖表:全球範圍目前已經或計劃接入OpenAI、文心一言等語言類大模型的應用一覽
資料來源:同花順財經,IT之家,新民晚報,新浪財經,中金公司研究部 短期維度:融合創成式AI提升生產效率,成為工具軟件競爭的新焦點
目前創成式AI主要以嵌入現有工具軟件的方式幫助用户提升生產效率。 工具軟件融合創成式AI後,能夠在用户指定的框架、指令與引導下進行輔助式創作,進而幫助用户減少重複性、機械性、規則導向的勞作,甚至進而承擔具有一定創造性的工作,比如基於指引在現有語料庫基礎之上收集歸納形成文字創作、基於文字描述生成圖片與視頻、在3D模型創作中輔助實現參數優化等。目前在文字、2D圖片、3D模型、音頻、視頻等多個模態領域已有眾多廠商選擇參與探索實踐:
► 創成式AI與文字創作: 海外廠商如Notion內置了AI寫作助手可以根據用户描述自動生成不同應用場景下的文本內容,微軟亦計劃在Office中接入ChatGPT能力;國內廠商如金山辦公旗下WPS可以實現文檔校對、全文翻譯和輔助寫作等功能。除了C端應用之外,亦有廠商開發了專門面向企業的AI輔助文字創作產品,典型代表為第四範式旗下的式説,能夠將GPT這類大型生成式語言模型與企業內部垂直領域知識融合、同時保障私有化部署,以滿足企業級應用對垂直行業知識、數據安全、內容可信等的要求。
► 創成式AI與圖片創作: 海外已有較多公司推出基於文字生成圖像的產品,流行度較高的包括OpenAI旗下DALL E 2、Stability AI旗下Stable Diffusion、Midjourney等,其操作流程大多類似,輸入關鍵詞即可生成多幅AI繪畫內容,並支持進一步修改和添加細節,各廠商在生成圖片風格上各異,DALL-E2偏寫實、Midjourney偏科幻、Stable Diffusion無風格偏向可根據細節指令多次嘗試調整。國內亦有廠商跟進如崑崙萬維旗下的天工巧繪和萬興科技旗下的萬興愛畫等。
► 創成式AI與音頻創作: 海外廠商如谷歌在去年10月發佈了AudioLM,可以根據輸入的音頻片段生成相似風格的音頻,今年1月又推出MusicLM,可直接根據文字、圖像生成音樂;微軟也於今年1月發佈了VALL-E,只需3秒音頻即可模仿人説話,且可以複製説話者的情緒和語氣;此外還有Stability AI旗下的Dance Diffusion、Open AI旗下Jukebox。國內亦有廠商跟進,包括訊飛配音、百度語音合成和騰訊智影等。
► 創成式AI與視頻創作: 海外廠商如Meta旗下的Make-A-Video支持根據文字描述生成視頻;谷歌旗下Imagen Video和Phenaki分別支持不同畫質和長短要求的視頻創作,2月初其再次發佈視頻編輯新方法Dreamix,能夠實現對已有視頻的編輯和通過提供圖片與描述生成視頻;此外還有Runway推出的AI視頻生成模型GEN-1。國內廠商亦有所嘗試,如萬興旗下的萬興播爆支持根據關鍵詞生成數字人宣傳視頻、百度孵化的VidPress支持導入圖文後自動實現配音、字幕、畫面的視頻內容生產,此外還有當虹科技的畫質增量類AI產品和商湯智影推出的輔助智能腳本創作產品。
► 創成式AI與3D模型創作: Creo、Autodesk Fusion360、Solid Edge、Solidworks等3D CAD產品目前已廣泛集成AI Inside應用能力,主要用於輔助實現參數優化和草圖生成;在EDA領域,Synopsys、Cadence等海外EDA廠商在AI賦能芯片設計上均有所探索,通過已有的設計數據訓練模型,實現更高的設計效率。
工具軟件與AI的融合能夠優化用户體驗與生產效率,提升產品競爭力。 無論從帶給用户“新奇感”還是從提升用户生產效率的角度,接入AI對於工具軟件而言都是提升產品吸引力與競爭力的較優選擇。同時由於短期接入大模型的試錯成本較低,我們判斷廣大的工具軟件廠商對於相關能力的接入都會抱有開放的態度,產業生態有望快速壯大。
但客觀來看,目前的創成式AI仍具有多方面不足,主要作為輔助生產工具的形式出現。 由於目前以ChatGPT為代表的創成式AI仍存在缺乏特定行業語料訓練、語料庫滯後、無法保證邏輯推理正確性等多種不足,因此短期僅作為輔助生產工具的形式出現,並不具備完全主動進行生產創作的能力。並且在使用的過程中,用户也需要額外注意可能存在的版權糾紛、敏感信息、偏見歧視等方面的問題。我們認為,創成式AI與應用軟件融合仍處於起步階段、提升空間廣闊。
AI賦能工具軟件後,短期會對行業生態及商業格局帶來哪些影響?
產品價值角度,AI融合應用的功能或將成為工具軟件的增量付費點。 短期來看,工具軟件廠商能夠將與AI的融合應用作為差異化功能點和增值服務,向用户進行增量收費,進而打開產品付費天花板。比如微軟發佈的Teams Premium,需以每月10美元的價格訂閲享用基於GPT-3.5的自動生成會議筆記等功能;同為微軟旗下的輔助代碼生成和修改應用Copilot亦需額外付費;Notion目前AI增強功能alpha測試版本免費,但官方表示未來正式版本將大概率收費。 圖表:AI增強功能或將成為工具軟件的增量付費點,進一步打開產品收入天花板
資料來源:公司官網,中金公司研究部 競爭角度,原生於AI的新興廠商、傳統廠商對AI應用融合的跟進速度都將使現有格局產生變化。 我們將AGI看作一個新的技術革命,可能對傳統產業格局帶來衝擊。類比雲計算時代,Salesforce等新興SaaS廠商把握“上雲”新趨勢,異軍突起“超車”SAP等老牌軟件廠商;而Oracle、微軟等傳統廠商的雲轉型成效也直接影響其市場影響力演變趨勢。事實上,目前已有一批AIGC相關獨角獸正快速發展,在未來的AI融合應用時代,我們認為原生於AI的新興廠商的出現及傳統廠商AI轉型效果都可能給現有的競爭格局帶來改變。
圖表:AIGC相關獨角獸正快速發展,或使現有格局發生變化
但隨着創成式AI應用的普及,未來AI融合工具軟件可能成為“標配”。 由於工具軟件廠商不需要在AI大模型開發上投入成本,而只需專注於AI融合應用的實踐與適配,前期成本並不高,因此我們判斷如果早期參與的工具軟件廠商通過融合AI實現了商業成功,產業中的其他參與者將會快速跟進,AI融合工具軟件或將成為“標配”。在這種情況下,我們認為,工具軟件廠商可能將無法繼續對AI增強功能進行單獨收費,而廠商之間競爭的差異點也會從“有無AI增強”變為“能否用好AI”。
未來AI融合場景的應用深度將成為工具軟件廠商競爭的新焦點。 當AI融合應用成為工具軟件廠商的“標配”後,廠商之間競爭的焦點將落在如何發掘更適合AI的應用場景、最大限度發揮創成式AI的效能上。在同樣都能夠接入AI通用大模型能力的前提下,我們認為未來能夠將AI與現有應用場景更好融合、更大程度發揮AI價值的廠商有望在新一輪的競爭中勝出,一些領域現有固化的競爭格局也可能會受到衝擊甚至的顛覆。
長期維度:創成式AI或將重塑商業邏輯,實現生產工具向生產力的躍遷
理想中的AGI能夠將生產工具升級為生產力,重塑工具軟件底層商業邏輯。 長期來看,AGI(通用人工智能)融合工具軟件應用具有較大的想象空間,產業中不乏將通用人工智能比作新一次“工業革命”以及“科技奇點”的觀點。理想情況下,我們認為,未來真正的AGI將能夠不依賴於人類用户的命令與引導進行創作,彼時,融合了AGI自主創作能力之後的工具軟件將不再僅僅是輔助人類用户提效的“生產工具”,而成為獨立的增量“生產力”。
AI賦能下的工具軟件成為生產力後應直接參與生產價值的分配,生產價值由底層AI能力提供方與工具軟件廠商共享。 我們認為,未來,如果AI賦能下的工具軟件能夠完成生產工具提供方向生產力提供方的轉變,其商業邏輯將不再是間接收取提供工具的費用,而應直接參與生產價值的分配,比如一本完全由AI賦能的文字創作軟件撰寫的書籍,底層通用AI能力提供方與文字創作工具軟件提供方均有權從書籍銷售額中獲得分成。
圖表:創成式AI將生產工具升級為生產力,帶來商業邏輯質變
資料來源:Business Digest,中金公司研究部 短期看,擁有稀缺AI融合場景的下游廠商更為關鍵;長期看,議價權向掌握底層通用AI能力的平臺廠商轉移。 在AGI探索的早期階段,適合的下游應用場景較為稀缺,底層通用AI平臺廠商希望儘可能多的應用廠商接入,進而獲得更豐富的在垂直應用場景訓練大模型的機會。但長期來看,由於訓練大模型的技術、成本要求較高,隨着AGI應用逐步深入,我們認為,最終議價權可能會向少數擁有底層通用AI能力的平臺型廠商轉移,其有望在價值分配中獲得更高的比例。但暫不論最終價值分配比例孰高孰低,我們認為,在這一過程中,工具軟件廠商的商業邏輯都產生了質變——即有可能直接介入到生產價值的分享過程中。
圖表:理想中AGI帶來工具軟件價值分配邏輯變化
如何更好地理解長期視角下AI對於商業邏輯的重塑?我們將其與雲計算帶來的SaaS模式對比。 我們認為,AI和雲計算同為具有劃時代性質的技術變革,雲計算創造了SaaS這一新型的商業模式並改變了傳統企業服務軟件的競爭格局,因此,我們將AGI從產業結構及商業邏輯等方面與雲計算進行對比分析,討論其可能帶來的商業影響。
► 產業結構角度,AI中的算力、模型、AI融合應用分別對應雲計算中的IaaS、PaaS、SaaS。 我們認為,與雲計算的三層產業結構類似,AI模型的訓練需要底層強大的硬件支持,算力層即對應雲計算中的IaaS層;AI大模型則與基礎軟件類似,承擔通用需求,同時目前大模型接口也正在嘗試按量付費模式,MaaS(Model-as-a-Service)即對應雲計算中的PaaS層;最上層應用軟件調用AI大模型,直接面向企業、消費者提供融合AI能力後的垂直場景功能,即對應基於底層雲計算基礎設施和平臺能力提供服務的SaaS軟件。
圖表:AI中的算力、模型、AI融合應用可以分別對應雲計算中的IaaS、PaaS、SaaS
► 商業邏輯角度,雲計算從銷售產品向訂閲服務轉變,AGI有望帶來生產工具使用付費向生產力直接參與價值分配的改變。 雲計算使得客户從一次性買斷基礎軟硬件產品向持續性付費以享受雲廠商提供的服務轉變,訂閲制對於供應商來説意味着更優的現金流和收入可持續性、以及更高的客户付費總量。正如我們前文的討論,若未來AI賦能下的工具軟件能夠完成生產工具提供方向生產力提供方的轉變,其商業邏輯將從收取工具使用費用,轉向直接參與生產價值的分配,對於供應商來説也意味着更優的收入可持續性和更高的收入天花板。
► 競爭格局角度,新廠商的進入和傳統廠商對於新技術的適應程度均使得現有格局產生變化。 以數據庫基礎軟件市場格局為例,過去十年的市場格局變化主要受雲廠商和雲原生獨立數據庫廠商進入以及傳統數據庫企業雲轉型成效優劣的影響。類比來看,我們認為,未來原生於AI的新工具類軟件廠商進入,以及現有廠商融合AI的速度和能力優劣也可能重塑市場競爭格局。
► 價值分享角度,底層基礎設施廠商提供通用能力,上層應用廠商聚焦垂直場景。 雲計算產業鏈中,IaaS、PaaS層廠商提供通用軟硬件基礎設施能力,SaaS層廠商聚焦於提供垂直功能應用。類比來看,AI底層平臺型廠商提供通用大模型能力,上游工具類軟件廠商尋找適合AI賦能、變現的落地場景。而在AI所需的算力成本方面,我們認為AI廠商將會承擔訓練成本,而後續的推理成本則會由AI廠商與應用軟件廠商共同承擔(類似於雲計算的租用雲計算資源,未來的AI產業會是租用模型和算力)。
圖表:長期來看,AI有望與雲計算一樣帶來工具軟件的商業邏輯重塑
“上雲”已成為應用軟件的“必修課”,我們認為未來“AI+”也可能成為應用軟件標配。 目前支持雲部署已經基本成為軟件廠商的必備能力項,在2010年以後成立的多數軟件公司均選擇了雲原生的技術路線;而傳統軟件企業亦積極轉向雲端,並在商業模式上也向訂閲制轉型。而從應用軟件對AI的融合應用來看,同理我們認為也“AI+”有望成為新一代應用軟件的標配,而應用軟件廠商也將在與AI廠商的探索與磨合中形成新的一套成熟的商業模式。
商業模式重塑之後,雲計算促進應用軟件的價值重估,未來AGI同樣可能帶來新一輪價值釋放。 雲計算通過軟件開發、部署、交付、收費方式變化,催生商業模式與業務邏輯升級,進而引發資本市場對於工具軟件乃至整個應用軟件行業的價值重估。我們認為,長期來看,未來創成式AI賦能工具軟件可能帶來新一輪的價值釋放。但短期來看,由於目前大模型仍存在諸多缺陷,下游應用及增量付費場景仍在探索中,版權、法規上亦有進一步討論明確的必要,因此我們的上述猜想在未來演進方向上仍存在較多不確定性,需要持續跟蹤、觀察。
總結來看,AI融合工具軟件想象空間寬廣,但實際落地仍有諸多挑戰,我們強調短期不誇大、長期不低估的觀點。 AI融合工具軟件想象空間寬廣,但最終落地實現仍需依賴底層算力與大模型算法演進迭代,同時尚有法律、倫理相關問題有待討論、解決。我們認為,AGI應用的前途是光明的,但道路是曲折的,我們強調短期不誇大、長期不低估的觀點,建議投資者持續關注跟蹤最新產業趨勢,並對AI融合工具軟件可能的各大應用場景保持關注。
圖表:AIGC關鍵技術持續突破,AI融合工具軟件想象空間寬廣,我們強調短期不誇大、長期不低估的觀點
資料來源:OpenAI官網,《Denoising Diffusion Probabilistic M 創成式AI賦能工具軟件的產業實踐與應用趨勢
創成式AI與文字創作:ChatGPT有望加速AI文字創作落地
創成式AI能夠在文字創作場景下完成寫作、改寫、修正、翻譯等功能。 AI可以藉助互聯網廣泛的文本數據對文字創作工具進行訓練,目前Transformer大模型在自然語言場景下的應用能力已經相對成熟,我們認為文字創作有望成為創成式AI快速落地的應用場景。我們觀察到Notion、微軟等已經開始將AI語言模型接入筆記和辦公軟件;第四範式也推出了面向企業客户的AIGC工具,辦公軟件龍頭金山辦公在中長期來看也有望實現AI賦能,提升文字創作效率。我們認為創成式AI在文字創作場景下主要能夠實現四大能力:
► 寫作: 基於海量的語料庫,Transformer神經網絡擁有語言理解和文本生成能力,因此可以根據使用者的簡單指令生成邏輯連貫、事實豐富的語段;
► 改寫: 與普通規模的語言模型相比,大型語言模型擁有一定推理能力,能夠形成思維鏈來解決抽象問題,因此可以根據用户要求完成文本改寫任務;
► 修正: 通過在海量文本數據中對比學習和總結規律,創成式AI可以糾正所給文本的拼寫、語法、標點等錯誤,使修改後的文本更加符合常用語言範式;
► 翻譯: 創成式AI可以利用循環神經網絡和卷積神經網絡拆解結構複雜的語段並聯繫上下文進行翻譯,從而大幅提升翻譯的整體性、準確性和可讀性。 圖表:創成式AI在文字創作場景中的四大能力
案例1:Notion AI優化文字創作
Notion AI能基於簡單指令生成豐富的文字內容。 Notion AI是用於Notion產品的人工智能工具,通過集成機器學習和NLP技術,幫助用户提高文字創作的效率和體驗。在AI大規模語言模型賦能下,用户只需要羅列出基本需求,產品即可自動生成豐富的文字內容,文字內容的類型覆蓋會議議程、銷售郵件、新聞發佈稿等多種場景。Notion AI還擁有總結、改錯、翻譯、續寫、頭腦風暴等功能;後續Notion AI還將會成為Notion知識庫的接口,用户只需要輸入搜索要求,Notion AI即會自動呈現相關信息。我們預期Notion AI的自動文本生成、文本摘要、文本編輯等功能或將大大優化用户的創作流程和使用體驗,幫助Notion的產品力實現躍升。 案例2:微軟AI與Office的融合計劃
AI賦能下微軟Office料將優化產品體驗。 微軟2019年以10億美元投資OpenAI並與之建立了較為深入的合作關係,近期微軟計劃將OpenAI的下一代語言模型整合進Office辦公軟件中的Word、PowerPoint、Outlook等應用程序,用户只需要輸入簡單指令,即可獲得自動產生的文字內容。新版Office將擁有自動總結、內容建議以及文本生成功能,可提供類似Bing-ChatGPT側邊欄的體驗,用户可在側邊欄中與聊天機器人交互。
龐大用户規模和訓練數據有望助力Office AI應用能力快速迭代。 Office辦公軟件用户規模優勢明顯(21年PC版全球裝機量15億套),我們認為OpenAI的人工智能技術與Office軟件的融合一方面能讓AI找到優質的落地場景;另一方面,Office軟件龐大的用户規模有望為AI提供源源不斷的海量訓練數據,從而形成飛輪效應,不斷改善AI的文字創作體驗。
案例3:模力表格提供內嵌於表格場景的AI文字處理應用
模力表格通過AI大模型實現表格中文本內容的“批量化計算”。 模力表格由面壁智能公司和大模型開源社區OpenBMB(主要成員來自清華大學)聯合開發,其將AI大模型的文字處理能力嵌入到函數中,通過在表格中輸入函數即可調用模型,目前支持的函數包括IE(信息抽取)、QA(問答)、MT(翻譯)、SA(情感分析)、TG(標題生成)等,同時支持和Excel基礎函數集成使用。我們認為通過表格中的AI文字處理應用能夠實現文本批量化計算,大幅提升辦公效率。
圖表:模力表格實現表格場景下AI文字處理能力
資料來源:OpenBMB開源社區微信公眾號,中金公司研究部 案例4:第四範式滿足企業場景AIGC需求
第四範式推出企業級類GPT產品“式説”,助力企業利用內部知識解決問題。 第四範式通過將類GPT語言模型與垂直領域知識進行融合,推出“式説”產品,旨在解決大型生成式語言模型在企業內部使用場景下的侷限,滿足企業場景下的AIGC需求。“式説”主打三大產品特點:1)數據安全,通過私有化部署解決企業客户對數據安全的顧慮;2)內容可信,“式説”基於企業內部數據庫,並且在提供回答時標註信息原始出處,增加了回答的可信性和可靠性;3)成本可控,“式説”算力成本相對可控,而且對數據標註量的需求較小。我們認為“式説”這類服務於B端客户的AIGC工具能夠助力實現企業知識複用,提高企業生產和管理效率。
圖表:第四範式“式説”產品工作界面
案例5:竹間智能借助AIGC賦能寫作&對話&知識搜索等多場景
竹間智能推出類ChatGPT產品,賦能企業級AIGC應用。 公司成立於2015年,為金融、企業、健康醫療、製造、智能終端、政務六大領域提供AI賦能解決方案。2022年9月公司推出AI SaaS產品,涵蓋客户服務、銷售服務、企業內部服務等多場景,為中小企業提供雲端AI工具。在AIGC領域公司亦持續深耕,先前已推出Magic Writer等多款智能創作寫作軟件,並於近期推出企業級Gemini GPT產品系列,包括企業對話機器人KKBot、交互式認知搜索引擎ChatSearch,在銷售客服、人機交互、知識探索等方面藉助AI實現全面賦能。
案例6:印象筆記藉助自研輕量化大模型輔助文字創作
基於自研“大象GPT”模型,推出“印象AI”創成式文字工具。 2019年以來,國內筆記應用廠商印象筆記發力AI在筆記文字處理中的AI應用場景,陸續推出了智能推薦、智能標籤、智能摘要、知識星圖等AI工具。印象筆記同時持續投入大模型研發,於2023年推出了結合OPT、BLOOM等類GPT-3.5結構大語言模型自主研發構建的大語言模型“大象GPT”,並基於此推出“印象AI”創成式文字工具模塊內嵌於自身的筆記產品中,實現了國內廠商通過自研模型實現AI文字創作的先發應用。未來印象筆記計劃利用基於人類反饋的強化學習(RLHF)來優化模型,並計劃與私人語料結合賦能具備個人風格文字創作。
案例7:Minimax打開C端落地新場景
區別於ChatGPT的專業知識問答,MiniMax推出的Glow主打聊天社交功能。 公司成立於2021年年底,已自研文本到視覺、文本到語音、文本到文本三個模態的通用大模型。2022年11月,MiniMax推出首款AI對話機器人平臺Glow,用户可選擇已存在的智能體進行對話,或者通過簡短描述創造智能體並在後續對話中實現優化調整,智能體的對話生成、人物頭像生成、音色生成調用了MiniMax三大模態模型的能力。區別於ChatGPT聊天機器人傾向於問題搜索、文本生成等功能,由Glow生成的智能體擁有不同的背景和性格設定,與用户對話的內容也偏向於閒聊陪伴、情感互動、劇情演繹。我們認為,MiniMax的聊天機器人與用户交互效果較好、具備較強的用户粘性,打開C端落地新場景。
案例8:金山辦公潛在的AI應用場景
金山辦公在AI領域已有紮實佈局。 國內辦公軟件龍頭金山辦公在計算機視覺、自然語言處理、語音處理等AI領域也都有廣泛的技術與業務佈局。公司自2017年開始搭建AI中臺,圍繞辦公領域已經開發出近100項AI能力。在自然語言處理方向,金山辦公已經開發出輔助寫作功能,用户只需提供一個提綱,AI即可基於語料算法自動生成文本,用户可以將AI生成的文本作為底稿,大大提升寫作效率。此外,金山辦公也已實現AI校對、翻譯、糾錯等功能,並將其作為WPS辦公軟件套件的重要增量功能。
我們判斷金山辦公會在緊跟AI產業趨勢的同時,適時切入跟進。 我們判斷金山辦公會把主要發力點瞄準AI應用端。公司現有產品WPS積累的用户量級大、用户場景多樣且複雜度高,我們認為金山辦公若能深挖用户場景,將可以在郵件、辦公、營銷、政務、文學等各個細分場景中提供相應的AI文字創作服務,提升用户使用體驗,加深產品護城河。未來我們判斷公司會在充分考量國內各家AI大模型廠商的能力之後,適時嘗試接入應用,儘可能地發揮AI大模型在辦公軟件領域的應用潛能。
創成式AI與音頻生成:跨模態應用進軍音頻行業
海外案例1:谷歌不同團隊均有音頻生成研究成果
谷歌在2023年發佈了不同的音頻生成模型,並且有各自的特點。 在此之前也出現過相關AI創作音樂的嘗試,如可視化音樂創作模型Riffusion、谷歌發佈的AudioML和OpenAI推出的Jukebox。而現在的研究成果基於Diffusion模型、標註好的音頻數據,通過提取數據特徵、文本和音頻的配對,實現文本生成音頻。
► MusicLM: 這是一種從文本描述中生成高保真音樂的模型,例如用户可以輸入“平靜的小提琴旋律伴隨失真的吉他即興演奏”。MusicLM將條件音樂生成過程轉換為層次化的Seq-to-Seq建模任務,並能夠保持24 kHz的頻率生成一段幾分鐘的音樂,無論是文本描述還是音頻質量都優於之前的模型。此外,MusicLM還能夠基於文本的描述轉變原來的旋律、根據圖片畫作和文字描述生成對應的音樂伴奏。
► Noise2Music: 連續應用Diffusion模型生成24kHZ的音頻片段,使用兩個深度模型偽標記大型偽標記音頻數據集生成訓練集,大預言模型生成音樂描述性文本,嵌入預訓練的音樂-文本聯合模型,通過zero-shot分類為音頻分配相應文本。Noise2Music可以理解更加複雜的prompt語義,生成不同風格,如“一位女低音在現場表演中演唱一首慢速爵士民謠”;或者模仿不同的樂器,如鋼琴、薩克斯、非洲鼓等。
► SingSong: 該模型可以根據人聲自動生成伴奏,其技術基礎建立在人聲的音源分離和音頻生成上。用户只需要輸入其人聲,就可以獲得對應的樂器伴奏。研究人員召集了一批聽眾評估模型的效果,展示兩個具有相同人聲的10秒伴奏音頻,SingSong獲得的反饋明顯優於其他基線模型。
海外案例2:英國學術機構提出AudioLDM,提升質量並優化算力消耗
AudioLDM模型解決了“文本到音頻”的研究存在的質量有限、計算成本高的問題。 英國薩裏大學和帝國理工學院聯合發佈並開源了一個基於去噪擴散隱式模型和對比學習的框架:AudioLDM。該模型提升了文本生成音頻的質量;訓練過程中僅僅需要文本數據就達到了比使用音頻-文本相當甚至更好的效果;此外模型訓練計算資源消耗低,並且不需要額外訓練就可以對聲音風格進行變換或者模仿。
國內案例1:科大訊飛推出全新訓練框架優化語音韻律
科大訊飛推出SMART-TTS框架並上線訊飛開放平臺、訊飛有聲以及學習強國。 SMART-TTS不直接學習文本與音頻特徵的映射,而是通過模塊化拆解語音合成的學習過程,預訓練加強各個模塊。該框架可以提供“高興、抱歉、悲傷”等11種情感,每種情感有20檔強弱度調節;也能提供聲音的停頓、重音、語速等,可以在數字人語音上實現真人表達的感情。此外,科大訊飛的語音合成支持37個語種、11種方言、2種民族語言以及中英混合自然合成。
國內案例2:國產AI語音生成“獨角獸”雲知聲
除了文本生成音樂以外,語音合成也是音頻生成的重要方向。國內“獨角獸”雲知聲提供語音合成產品服務,包括文本語音合成、音庫定製和聲音克隆。 其中,語音合成可以將文本轉換成自然流暢的語音,提供更多音色、不同情感並提供調節音量、語速、音高等功能;音庫定製主要面向企業客户,提供定製化的音庫服務,通過深度學習生成專屬IP發音;聲音克隆可以通過錄制少量的用户聲音,快速得到音色和發音風格與錄音相似的聲音模型。這些功能適用於智能客服、智能硬件、新聞播報、自媒體配音等各種有聲場景。
創成式AI與圖片創作:跨模態帶來豐富想象空間
2022年,隨着CLIP、Diffusion大模型的誕生與開源,DALL·E 2、Stable Diffusion模型落地進一步推動,文本生成圖像等跨模態生成成為AIGC落地主線。 OpenAI具備大模型基礎、開源數據庫中海量圖文對應數據、頭部廠商的算力支撐以及門檻降低三要素條件後,發佈升級版“文生圖”模型DALL·E 2,將AI作畫(文本跨模態生成圖像)推向落地,掀起AI作畫浪潮;2022年8月,Stability AI開源Stable Diffusion模型,標誌着AIGC在AI作畫領域跨模態應用的門檻大幅降低,開啟全民創作的“工業化生產”時代。海外應用層在此基礎上催生出Midjourney、ChilloutMix、Controlnet等精調模型、插件,不斷提高生成圖像質量,逐步推動AI圖片創作商業化。
海外案例1:“文生圖”開山者DALL·E及DALL·E 2
DALL·E由OpenAI率先推出,並於2021年通過Azure OpenAI服務開始將其技術商業化,2022年4月發佈升級版DALL·E 2。 憑藉OpenAI在2021年發佈的基於GPT-3的圖像文本匹配模型CLIP,DALL·E 2具備了聯繫文本和視覺圖像的能力;又通過基於Diffusion的圖像生成模型GLIDE,DALL·E 2能夠按照文本生成逼真的圖像,分辨率提升了4倍,準確率更高,並且業務更廣,具備三種功能:1)根據文本提示生成圖像,2)以給定圖像生成新圖像,3)以文本編輯圖像元素。
DALL·E 2目前採取付費購買次數的商業模式: 加入Open Beta項目後,首月50個免費點數,每一個點數對應一次繪圖,之後每個月免費補充15個點數,目前的價格是15美元115個點數。相較於DALL·E,DALL·E 2不僅能夠生成更真實、更準確的圖像,還能夠更完整地表達場景並通過自然語言描述對現有圖像進行增刪元素等編輯。而相較於該領域內其他模型,DALL·E 2的可控性較高,空間結構關係處理優異,高寫實的圖像仿真度較強。DALL·E 2的技術成熟和率先落地將AI作畫從想象照進現實,2022年7月,DALL·E 2開啟邀請制公測,為AIGC在2022年熱度提升的重要推動力。
海外案例2:Stability AI開源Stable Diffusion,以AI作畫對外輸出
Stability AI成立於2020年,2022年憑藉推出並開源Stable Diffusion的底層能力,投後估值超10億美元,在種子輪融資階段即晉升為獨角獸。 Stable Diffusion主要基於潛擴散模型(Latent Diffusion Model),通過迭代“去噪”輸入並解碼輸出來生成圖像,使用空間降維解決內存和模型推理時長痛點,不僅使用户僅在消費級顯卡上就能夠快速生成高分辨率、高清晰度圖像,而且建立開源生態,大大降低用户的使用門檻。至此,開源生態推動AIGC的數據、模型與算力問題初步解決,直接降低了使用者的門檻,滲透進多個垂直領域。
海外案例3:成功變現的商業模式,AI作圖現象級應用Midjourney
Midjourney基於CLIP和Diffusion構建了閉源的“文生圖”模型,已實現1000萬用户和超1億美元營業收入。 該產品搭載於Discord社區,用户通過將Midjourney機器人邀請至頻道內,並輸入以“/image”為開頭的prompt生成想要的圖片。Midjourney擁有超1000萬名社區成員,通過用户對生成結果的選擇來獲取反饋,從而具備了龐大且獨特的數據集,建立起競爭壁壘。Midjourney生成的圖片所需prompt較短、質量高、具有科幻色彩,受設計人羣、Web3 & NFT從業者以及個人用户喜愛,採用SaaS付費的商業模式,已經實現盈利。
比起海外前沿技術,國內的AI圖片創作落地相對早期,但相應成果也取得了一定的進展,湧現出一批創新的產品和技術。 其中以百度的文心·一格、萬興科技的萬興愛畫為代表,不僅展現了國內擁有人工智能作畫的能力,同時進行創新研發出“AI簡筆畫生圖”,拓展了創作的交互方式,提高了用户使用的效率和體驗。
國內案例1:百度基於文心大模型,AI作畫能力對標海外
文心·一格是百度依託飛槳、文心大模型推出的首款AI作畫產品。 該產品支持文本生成國風、油畫、水彩、水粉、動漫、寫實等十餘種不同風格的圖像,為專業內容創作者提供創作平臺的同時為入門級用户、大眾用户實現想象力落地提供可能。而面對應用落地的三重挑戰:創作需求理解、圖像原創生成和創作需求滿足,文心·一格進行了三大技術創新,分別是基於知識的prompt學習、文本跨模深度融合和文本驅動的圖像編輯,實現了創意規劃、細節刻畫能力和多輪交互提升質量。
國內案例2:萬興科技深耕AIGC作畫,OpenAI賦能國內廠商的案例標杆
萬興科技深耕海外業務20年,接入OpenAI的API,打造出面向繪圖創意領域的新型創作神器:萬興愛畫。 萬興愛畫定位於專業打造“AI生成高品質藝術品”,提供隨機生成與關鍵詞創作兩種AI文生圖模式,用户可以自行輸入關鍵詞、選擇圖片比例和藝術風格,30秒就可以獲得由AI生成的繪畫作品,作品支持各種藝術風格,比如手繪、賽博朋克、二次元、CG數字渲染等。而且產品支持中文和英文雙語創作,通過感歎號和括號強調關鍵詞。
2023年2月,萬興愛畫在業界率先推出“AI簡筆畫”。 該產品成為全球首款通過用户交互並以此“圖生圖”的AI作畫軟件,標誌着萬興愛畫助力AI繪畫進入新時代。相比之前的作畫方式,簡筆畫對用户原先的prompt要求更低,如今只需簡單幾筆就能在5秒內生成高質量藝術畫作;用户同樣可以通過圖片選擇反饋使模型迭代升級。通過簡筆畫“圖生圖”,用户在創作中更具參與感,過程也更有趣味性。 圖表:萬興“AI繪畫”創作界面
創成式AI與視頻創作:跨模態階躍尚處早期,有望打開應用天花板
海外科技巨頭的標杆案例打開AI視頻創作的想象空間。 2022年9月,Meta發佈了從文本生成視頻的Make-A-Video,能夠基於幾個詞或句生成數秒的短視頻。僅一週後,谷歌發佈Imagen Video、Phenaki,分別定位於生成高畫質、長時段視頻。目前AIGC跨模態生成視頻領域仍存不足,利用AI生成的視頻有明顯的缺點,例如物體的模糊與扭曲,也不能生成更長的場景來詳細、連貫的講述故事,但我們認為AIGC視頻生成有望在技術上實現突破,打開應用天花板。
案例1:Make-A-Video實現文本與視頻之間的跨模態生成
Make-A-Video能夠基於文本生成視頻。 Make-A-Video是2022年7月Meta發佈的文本生成圖像模型Make-A-Scene的進一步升級。通過向Make-A-Video輸入文本即可生成數秒的視頻,支持不同的視頻風格。除了文本生成視頻,Make-A-Video還能夠實現輸入單個或兩個圖像來創建運動,即圖像生成視頻。
案例2:谷歌在視頻的跨模態生成領域不斷產出成果
谷歌在文本生成視頻、圖像生成視頻均有涉獵。 谷歌在Meta推出Make-A-Video一週後,推出了Imagen Video和Phenaki,其中Imagen Video畫質較高但生成視頻時長較短,Phenaki生成視頻的畫質較差但能生成超過2分鐘的視頻;2022年11月,谷歌首次發佈將二者相結合的視頻,兼顧品質與長度。2023年2月2日,谷歌提出視頻編輯新方法Dreamix,能夠實現對已有視頻的編輯和通過提供圖片與描述生成視頻。
案例3:Runway推出的GEN-1模型在生成視頻質量上更勝一籌
由GEN-1模型生成的視頻風格多樣化。 Runway成立於2018年,是Stable Diffusion的聯合發佈方之一。2023年2月,Runway推出AI視頻生成模型GEN-1,通過將圖像或文本提示的構圖和風格應用於源視頻的結構上以合成新視頻,在生成視頻的畫質和長度上再邁進一個臺階。
國內廠商:亦處於早期探索期,輔助創作效率提升
國內廠商在生成視頻領域也處於早期探索期。 國內廠商在視頻領域應用AIGC技術更多落在視頻內容創作及品質升級的層面,實現視頻的屬性變化與“流水線式”內容創作,目前多應用於B端、為內容創作者提供生產效率的提升。
► 文本生成視頻: 2022年5月,清華大學聯合智源研究院發佈基於Transformer架構的CogVideo模型,該模型是業內首個開源的文本生成視頻AI模型,但生成視頻的分辨率較低、長度也較為有限,目前只支持中文輸入。
► 畫質增強與修復: 當虹科技在畫質增強類產品已較為成熟,其中包括視頻插幀、視頻細節增強、提升視頻畫質、老舊影像的修復與上色等。
► 視頻自動創作: 百度孵化的智能視頻創作工具VidPress支持導入圖文鏈接後自動實現配音、字幕、畫面的視頻內容生產,目前已為人民日報等媒體機構、百家號和好看視頻等平臺的終端用户提供智能生成視頻功能。
► 智能腳本創作: 商湯智影推出的“視頻元素分析”能夠提取並分析視頻中多種元素,例如人物、場景、道具、臺詞等信息,自動生成分鏡頭腳本,準確率達98%,並提取視頻爆款元素,有效減少腳本撰寫時間,助力廣告廠商節約內容製作成本。
受限於技術成熟度,AI獨立創作的視頻仍無法直接實現2B端落地變現,但目前已經在輔助商業化創作的過程中發力。 2023年1月31日,Netflix與小冰公司日本分部(rinna)、WIT STUDIO共同創作的首支由AIGC技術輔助的發行級別動畫片《犬與少年》正式發佈,該動畫全長3分多鐘,使用AIGC完成部分場景繪製,證明瞭AI技術在輔助視頻創作過程中已經開始實現商業化落地,但距離真正應用到大型項目、實現商業化變現仍有距離。
此外,基於自研稀疏模型在垂直領域落地的廠商具備多模態矩陣,以出門問問為例,打造文本、圖像、語音、視頻、數字人等多模態AIGC產品矩陣,佈局提供一站式內容生成工具。 出門問問於2020年推出其第一款AIGC商業化產品——配音平臺“魔音工坊”後,全面佈局AI聲音、AI寫作、AI圖片生成、聲音與形象克隆、數字人視頻等AIGC領域,多點開花聚焦廣泛的商業場景。
創成式AI與3D模型創作:以參數化建模為基,GPT文字處理賦能
工業場景的3D建模對AI能力要求較高,現階段創成式設計無法完全支持。 區別於圖片和視頻的創作,3D模型主要用於生產工業場景,需要更加嚴謹理性的建模創作能力,而目前ChatGPT等AI工具的數學和邏輯能力有所欠缺,因此通過文字描述進行創成式AI直接建模的進展相對較慢。另一方面,大裝配場景如飛機、船舶等模型的設計需要非常嚴謹的過程和參數,我們認為創成式AI設計在這類大型場景下的支持能力有限。目前我們觀察到AI在3D CAD領域和EDA領域的主要落地仍然以“AI Inside”賦能為主。
3D CAD中的創成式設計:以參數化建模為基礎的AI Inside賦能
3D CAD場景下的創成式設計(Generative design)主要藉助AI的能力生成大量可供選擇的模型。 根據PTC官網介紹,三維模型場景下的創成式設計主要是通過設計師給定約束條件(包括空間、材料、製造方法、成本約束等)和目標,藉助AI的能力來快速生成滿足需求的目標模型,供設計師從中選擇合適的模型進行進一步設計和優化,從而顯著提升設計效率。我們觀察到目前3D CAD中的AI應用主要分為兩類:
► AI輔助參數優化: 通常用於3D CAD模型的改進過程,基於CAE仿真結果(如部分零部件應力過大或形變明顯),可以通過對其他部位添加約束,對擬優化零部件生成大量潛在參數並進行選擇,最終得到優化的結果。
► AI實現草圖生成: 如Catia和Solidworks的Xdesign模塊就引入了AI輔助創建草圖功能,通過給定參數和材料得到系統給出的推薦的形狀。其一定程度上能夠幫助工程師進行底層幾何圖形,從而加快整體的設計進度。
3D CAD創成式設計基礎是參數化建模。 實際上參數化建模由來已久,1987年PTC公司發佈的Pro/E首次引入了基於歷史的參數化建模,至今主流3D CAD產品均有參數化建模功能。無論是AI輔助參數優化還是實現草圖生成,其本質上都是基於給定的限制條件生成大量參數,進而基於這些參數生成設計方案供設計師選擇。目前主流3D CAD產品如Catia、NX、Pro/E、Solidworks、SolidEdge等均具備AI模塊,實現輔助設計功能。
EDA中的AI Inside:基於已有設計數據實現設計效率優化
AI賦能有望助力芯片設計實現真正的“自動化”。 目前的EDA工具,即使是更加自動化的數字芯片設計流程中仍然需要大量設計師的人工操作場景,我們認為AI帶來的自動化程度提升有望減少設計過程中的重複性勞動,進一步解放設計師的生產力。目前AI對EDA設計工具的賦能可以分為AI Inside和AI Outside兩個層面:AI Inside一般指AI賦能相應的設計軟件,讓設計工具更加智能和高效;與之相對應的則是AI Outside,即為讓機器通過學習來積累經驗,從而一定程度上能夠代替人工成為新的“生產力”。
芯片設計後端(尤其是佈局佈線)是AI Inside在EDA中的主要應用場景。 在數字芯片設計流程中,設計後端最重要的佈局佈線環節涉及邏輯器件的物理形狀和擺放方式,工程師需要考慮綜合考慮網表圖節點、網格粒度、佈線密度等多重因素。因此佈局佈線通常是數據芯片設計中的高耗時環節,通過AI的圖像識別和優化算法有望實現設計效率的顯著提升。目前海外Cadence、Synopsys等EDA頭部廠商均具備AI Inside賦能芯片設計的能力:
► Cadence: 2020年3月Cadence發佈了更新版數字全流程工具,通過iSpatial技術整合佈局佈線工具Innovus和前端的物理驗證Genus工具實現打通,並集成機器學習技術,用户可用現有設計數據對iSpatial進行訓練,實現佈局佈線流程中設計裕度的最小化。
► Synopsys: 2020年Synopsys發佈用於EDA的AI應用程序DSO.ai。根據公司官網介紹,設計空間優化(DSO)藉助機器學習算法搜索大型設計空間,可用於優化芯片設計工作流程的輸入參數和選擇,以滿足特定項目的確切需求[1],我們認為其本質上類似3D CAD模型設計中的參數優化功能。
展望未來,AI Outside有望在更高層面實現真正的“芯片設計自動化”。 與AI Inside賦能EDA工具的理念不同,AI Outside則更加關注工具使用者的維度,指EDA工具通過學習人類的設計模式並積累設計經驗,最終達到減少人工幹預和釋放生產力的效果。目前Synopsys和Cadence在AI Outside助力實現設計自動化上均有所探索,我們認為現階段實現AI Outside面臨的主要阻力在於數據獲取成本。AI Outside訓練過程對芯片數據可靠性要求較高,而芯片設計公司的數據較難獲取,我們認為EDA公司依靠和晶圓廠的綁定關係或有望通過工藝數據實現訓練,逐步向AI Outside目標邁進。
創成式設計與GPT大模型的融合:從文字到模型的潛在路徑
創成式設計和GPT大模型的融合暢想:文字描述參數化。 我們認為GPT等大模型在3D模型設計方面仍然有較大的應用空間。未來的潛在的方向可能是藉助ChatGPT的文字處理能力來理解設計師的文字需求,即為將文字描述理解和轉化為一系列的模型參數,通過3D CAD創成式設計得到相應的模型設計方案。
► 創成式設計是當前已經存在的技術儲備。 目前3D模型的創成式設計已經能夠實現參數優化和草圖的生成,我們認為隨着技術逐步完善,從給定參數到3D模型生成這一步驟或許不是從文本到模型的瓶頸。
► 文字到參數的轉化是文生模型過程中的最大難點。 目前的Transformer模型更加擅長場景是自然語言處理,我們認為將文本轉化為設計師需要的參數是較大的難點,打通文本描述到參數描述的瓶頸有望為文本到模型的實現鋪平道路。2021年Deepmind論文論述了圖形和序列打通的可能性,藉助Transformer模型自然語言處理能力實現CAD草圖生成。
DeepMind藉助Transformer模型自然語言處理能力實現草圖繪製。 草圖設計是構成3D模型的骨架,其通過特定的約束來定義了實體如何在參數變換下保持原有的形狀。DeepMind在2021年發表論文,論述了CAD草圖繪製和自然語言建模的相似性,提出了能夠自動生成CAD草圖的機器學習模型,在無條件合成以及圖像到草圖的轉換任務中表現良好。論文的亮點在於實現了圖案和序列的對應,從而能夠應用Transformer大模型實現對序列的處理。我們認為隨着Transformer大模型應用逐漸深入,其與CAD融合應用或將持續推進,未來或將誕生基於文本實現更高級別模型生成的應用。風險
技術進展不及預期: 人工智能作為前沿新興技術,仍處於技術的快速發展期,其進展有一定的不確定性,若技術進展不及預期,可能導致產業化進展緩慢。
商業化落地節奏不及預期: 商業化落地是人工智能能否順利走向下一階段的關鍵點,若商業化落地節奏不及預期,對人工智能的進展將帶來負面影響。
行業競爭加劇: 人工智能是產業的熱點,未來商業價值顯著,科技巨頭、初創公司均在此領域佈局,未來垂類及應用層的行業競爭可能會進一步加劇。
編輯/irisz