揭秘中國聯通鴻湖圖文大模型:同賽道暫無競品可實現跨模態內容理解

證券時報 · 2023/07/19 19:30

近期，三大运营商陆续发布了大模型产品，正式进军大模型赛道。不过，三家运营商产品定位有所差异，中国联通的鸿湖图文AI大模型 1.0可实现以文生图、视频剪辑、以图生图等功能;中国电信大语言模型TeleChat推出了大模型赋能数据中台、智能客服和智慧政务三个方向的产品;中国移动的九天人工智能大模型聚焦于政务及客服行业应用。

针对运营商布局大模型业务的机遇及挑战，证券时报·e公司记者采访了中国联通研究院智能技术研究部吴浩然。

在吴浩然看来，大模型是人工智能新一轮爆发的转折点，也是AGI(通用人工智能)时代的原点，它的泛化能力将AI从过去一场景一适配的方式解放，类似工业革命从小作坊生产发展为工厂批量化生产，也意味着AI由能用到好用或者泛用的转变。与此同时，随着大模型语言能力的发展以及目前的混合专家系统模式，以自然语言交互大模型做“管家”的模式很可能会成为下一个时代的主流，也就是业界常说的大模型成为流量入口。

基于以上认知，吴浩然向记者表示，从商业价值角度讲，中国联通布局大模型领域是必要的。“运营商在移动互联网时代未能利用好流量成为了管道运营商，在智能互联时代将积极尝试转变，成为新时代的综合数字服务运营商。”

吴浩然还提到，随着大模型技术进一步发展，它极有可能成为新时代的操作系统，为防止重蹈过去很多工业软件被“卡脖子”的覆辙，中国联通或者运营商作为央企中在AI方向较强的企业，布局大模型也是符合国家政府期许的，是积极承担央企责任的体现。

“中国联通发布的模型不同于政务、客服等纯语言模型，最开始我们做的就是图文双模态的模型。”谈及鸿湖图文大模型 1.0，吴浩然表示，中国联通在图文领域主打的是国风水墨画生成和对古诗词理解，而这个赛道还没看到类似竞品。

据悉，中国联通布局大模型相对较早，在2021年即开始了相关技术研究，目前的鸿湖大模型是在2022年启动研发的，当时ChatGPT尚未出现，Midjourney、Stable Diffusion等文生图模型也还在酝酿。“我们最开始是从公众线的增值业务场景出发，因为5G新通信不再像传统通信只有文字，所以最开始我们瞄准的就是图文领域。”

吴浩然介绍说，在上述背景下，中国联通大模型最重要的工作或者优势是特征融合，将不同模态内容对齐到文本，来实现跨模态的内容理解。“由于当时ChatGPT尚未出现，我们采用的是当时更常用的Encoder-Decoder模式，使用这种模式使我们的特征提取和特征融合可以解耦，意味着我们只需要把注意力放在特征融合对齐上，而提取部分只需要选择合适的提取器即可，因此我们的模型扩展性极强。”

吴浩然表示，鸿湖图文大模型 1.0目前是针对图文，也可以将提取部分改为图声或其他模态提取器，同样进行特征融合和跨模态对比学习后，可以很容易扩展至其他跨模态，最终实现不同模态在文本语义上统一的目标。“模型的松耦合和扩展性强也构成了我们竞争力的一环，只要做好模态融合部分，特征提取就可以时刻选取市面最好的模型来替换，保持我们模型的活力。”

当前，AI持续火热，市场上也出现了“百模大战”，运营商系的大模型产品也面临不少挑战。

吴浩然认为，对于中国联通而言，目前最大的挑战来自于人员。“前期联通在人工智能方向投入的相对较少，人才积累方面存在着不足。本次鸿湖大模型也是同高校联合研发实现的，具备大模型训练及工程化经验的人员还较少，但也在紧急招募中。相信在中国联通决心进军大模型产业的背景下，我们能很快补足这点。”

其次就是相关赛道的产品化经验不足，当然这并不仅是联通自身面临的挑战，也是整个大模型产业需要面临的挑战。吴浩然表示，目前有成熟商业模式的只有GPT融合进搜索引擎，Midjourney进行原画创作等C端或2B2C紧密结合的模式，其他的行业落地尤其是纯B端的行业落地仍处于探索阶段。

“大模型仍处于Gartner技术成熟度曲线顶峰的左侧，今年的大模型热过去后，未来两到三年会有一个沉降期，然后5-10年逐步回升，能够在多少个行业找到商业模式，将决定其回升的速度和高度。”

谈及大模型产业的未来趋势，吴浩然认为，首先，模态融合一定是最大的趋势，单模态的仍称不上AGI，融合所有模态再进一步发展后才能迎来AGI;其次，混合专家系统类思路是目前大模型落地比较优质的路径，过去十几年人工智能尤其是深度学习技术的发展积累了很多优质的模型，将大模型与这些模型结合，乃至将大模型与各类数字化系统结合，与机器部件结合，将是未来大模型由纯数字经济向数字经济赋能实体经济转变的重要途径。

此外，大模型稀疏化也是未来大模型落地的重要路径之一，当前大模型参数量仍呈快速增长态势，稠密大模型的计算推理势必将占用极大的算力资源，阻碍大模型的快速落地和泛在服务，而大模型稀疏化将极大降低大模型的部署成本，提高推理速度，使大模型真正“飞入寻常百姓家”。

根据吴浩然的判断，短期内，大模型仍会以C端场景为主落地，B端由于存在大量判别式场景，仍需模型能力进一步增强，但长期看能否解决判别式场景的高精度同时保持高度泛化能力，是未来大模型能否在B端广泛应用的决定性因素。“可以说，C端决定未来大模型下限，B端则决定了其上限。”

近期，三大運營商陸續發佈了大模型產品，正式進軍大模型賽道。不過，三家運營商產品定位有所差異，中國聯通的鴻湖圖文AI大模型 1.0可實現以文生圖、視頻剪輯、以圖生圖等功能;中國電信大語言模型TeleChat推出了大模型賦能數據中臺、智能客服和智慧政務三個方向的產品;中國移動的九天人工智能大模型聚焦於政務及客服行業應用。

針對運營商佈局大模型業務的機遇及挑戰，證券時報·e公司記者採訪了中國聯通研究院智能技術研究部吳浩然。

在吳浩然看來，大模型是人工智能新一輪爆發的轉折點，也是AGI(通用人工智能)時代的原點，它的泛化能力將AI從過去一場景一適配的方式解放，類似工業革命從小作坊生產發展爲工廠批量化生產，也意味着AI由能用到好用或者泛用的轉變。與此同時，隨着大模型語言能力的發展以及目前的混合專家系統模式，以自然語言交互大模型做“管家”的模式很可能會成爲下一個時代的主流，也就是業界常說的大模型成爲流量入口。

基於以上認知，吳浩然向記者表示，從商業價值角度講，中國聯通佈局大模型領域是必要的。“運營商在移動互聯網時代未能利用好流量成爲了管道運營商，在智能互聯時代將積極嘗試轉變，成爲新時代的綜合數字服務運營商。”

吳浩然還提到，隨着大模型技術進一步發展，它極有可能成爲新時代的操作系統，爲防止重蹈過去很多工業軟件被“卡脖子”的覆轍，中國聯通或者運營商作爲央企中在AI方向較強的企業，佈局大模型也是符合國家政府期許的，是積極承擔央企責任的體現。

“中國聯通發佈的模型不同於政務、客服等純語言模型，最開始我們做的就是圖文雙模態的模型。”談及鴻湖圖文大模型 1.0，吳浩然表示，中國聯通在圖文領域主打的是國風水墨畫生成和對古詩詞理解，而這個賽道還沒看到類似競品。

據悉，中國聯通佈局大模型相對較早，在2021年即開始了相關技術研究，目前的鴻湖大模型是在2022年啓動研發的，當時ChatGPT尚未出現，Midjourney、Stable Diffusion等文生圖模型也還在醞釀。“我們最開始是從公衆線的增值業務場景出發，因爲5G新通信不再像傳統通信只有文字，所以最開始我們瞄準的就是圖文領域。”

吳浩然介紹說，在上述背景下，中國聯通大模型最重要的工作或者優勢是特徵融合，將不同模態內容對齊到文本，來實現跨模態的內容理解。“由於當時ChatGPT尚未出現，我們採用的是當時更常用的Encoder-Decoder模式，使用這種模式使我們的特徵提取和特徵融合可以解耦，意味着我們只需要把注意力放在特徵融合對齊上，而提取部分只需要選擇合適的提取器即可，因此我們的模型擴展性極強。”

吳浩然表示，鴻湖圖文大模型 1.0目前是針對圖文，也可以將提取部分改爲圖聲或其他模態提取器，同樣進行特徵融合和跨模態對比學習後，可以很容易擴展至其他跨模態，最終實現不同模態在文本語義上統一的目標。“模型的松耦合和擴展性強也構成了我們競爭力的一環，只要做好模態融合部分，特徵提取就可以時刻選取市面最好的模型來替換，保持我們模型的活力。”

當前，AI持續火熱，市場上也出現了“百模大戰”，運營商系的大模型產品也面臨不少挑戰。

吳浩然認爲，對於中國聯通而言，目前最大的挑戰來自於人員。“前期聯通在人工智能方向投入的相對較少，人才積累方面存在着不足。本次鴻湖大模型也是同高校聯合研發實現的，具備大模型訓練及工程化經驗的人員還較少，但也在緊急招募中。相信在中國聯通決心進軍大模型產業的背景下，我們能很快補足這點。”

其次就是相關賽道的產品化經驗不足，當然這並不僅是聯通自身面臨的挑戰，也是整個大模型產業需要面臨的挑戰。吳浩然表示，目前有成熟商業模式的只有GPT融合進搜索引擎，Midjourney進行原畫創作等C端或2B2C緊密結合的模式，其他的行業落地尤其是純B端的行業落地仍處於探索階段。

“大模型仍處於Gartner技術成熟度曲線頂峯的左側，今年的大模型熱過去後，未來兩到三年會有一個沉降期，然後5-10年逐步回升，能夠在多少個行業找到商業模式，將決定其回升的速度和高度。”

談及大模型產業的未來趨勢，吳浩然認爲，首先，模態融合一定是最大的趨勢，單模態的仍稱不上AGI，融合所有模態再進一步發展後才能迎來AGI;其次，混合專家系統類思路是目前大模型落地比較優質的路徑，過去十幾年人工智能尤其是深度學習技術的發展積累了很多優質的模型，將大模型與這些模型結合，乃至將大模型與各類數字化系統結合，與機器部件結合，將是未來大模型由純數字經濟向數字經濟賦能實體經濟轉變的重要途徑。

此外，大模型稀疏化也是未來大模型落地的重要路徑之一，當前大模型參數量仍呈快速增長態勢，稠密大模型的計算推理勢必將佔用極大的算力資源，阻礙大模型的快速落地和泛在服務，而大模型稀疏化將極大降低大模型的部署成本，提高推理速度，使大模型真正“飛入尋常百姓家”。

根據吳浩然的判斷，短期內，大模型仍會以C端場景爲主落地，B端由於存在大量判別式場景，仍需模型能力進一步增強，但長期看能否解決判別式場景的高精度同時保持高度泛化能力，是未來大模型能否在B端廣泛應用的決定性因素。“可以說，C端決定未來大模型下限，B端則決定了其上限。”

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

揭秘中国联通鸿湖图文大模型:同赛道暂无竞品 可实现跨模态内容理解

揭秘中國聯通鴻湖圖文大模型:同賽道暫無競品 可實現跨模態內容理解

風險及免責聲明

聲明

揭秘中国联通鸿湖图文大模型:同赛道暂无竞品可实现跨模态内容理解

揭秘中國聯通鴻湖圖文大模型:同賽道暫無競品可實現跨模態內容理解