人工智能芯片的競爭：GPU正紅，ASIC擁抱未來

智通财经 · 2017/10/19 18:25

本文来自申万宏源研究的研报《人工智能芯片的竞争：GPU正红，ASIC拥抱未来》，作者为证券分析师刘洋。

智通财经APP获悉，申万宏源研究发表研报，对人工智能各类芯片做出分析和对比，内容如下：

AI加速需求超过CPU计算能力摩尔定律供给

人工智能的三大支撑是硬件、算法和数据，其中硬件指的是运行AI算法的芯片与相对应的计算平台。在硬件方面，目前主要是使用GPU并行计算神经网络，同时，FPGA和ASIC也具有未来异军突起潜能。

目前AI芯片按照使用场景可以分为：云端(服务器端)和终端(移动端)芯片。云端主要指公有云、私有云、数据中心等需要用到的神经网络专用服务器，终端指手机、车载、安防、音响、机器人等移动应用终端。有的厂商同时具备云端和终端芯片的设计能力。

机器学习不断演进，深度学习出现。人工智能是应用范畴的词汇，机器学习是目前最有效实现人工智能的方法。深度学习是机器学习的子类，也是现有机器学习方法中，最奏效的一类。

深度学习的人工神经网络算法与传统计算模式不同。传统计算机软件是程序员根据所需要实现的功能原理编程，输入至计算机运行即可，其计算过程主要体现在执行指令这个环节。而深度学习的人工神经网络算法包含了两个计算过程：

1. 训练：用已有的样本数据去训练人工神经网络。

2. 执行：用训练好的人工神经网络去运行其他数据。

深度学习是目前AI 领域最有效算法，深度学习模型需要通过大量的数据训练才能获得理想的效果，CPU优势为处理各类数据及强逻辑判断能力，解决单次复杂问题能力强。两者需求并非完全匹配，深度学习需要一种替代硬件来满足海量数据的运算需求。

图片.png

除了CPU以外，AI使用的主流芯片种类有： GPU、FGPA、ASIC。

GPU将最早受益于安防等需求爆发

GPU是较成熟生态系统，最先受益人工智能爆发。GPU与CPU类似，只不过是一种专门进行图像运算工作的微处理器。GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。GPU在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于CPU的性能。英伟达公司从2006 年下半年已经开始陆续推出相关的硬件产品以及软件开发工具，目前是人工智能硬件市场的主导。

图片.png

GPU作为图像处理器，设计初衷是为了应对图像处理中需要大规模并行计算。因此，其在应用于深度学习算法时，有三个方面的局限性：

1. 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节，GPU在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行处理，并行度的优势不能完全发挥。

2. 硬件结构固定不具备可编程性。深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU 无法像FPGA 一样可以灵活的配置硬件结构

3. 运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明，GPU计算方式与深度学习算法并非完全匹配，性能峰值无法被完全利用。运行深度学习算法中实现同样的性能，GPU所需功耗远大于FPGA。

FPGA：能效居中的中间方案

FPGA是能效中等、灵活度高、成本较高的AI白板。FPGA称为现场可编程门阵列，用户可以根据自身的需求进行重复编程。FPGA比GPU具有更低的功耗，比ASIC具有更短的开发时间和更低的成本。目前来看，FPGA在两个领域的应用前景十分巨大：工业互联网领域、工业机器人设备领域。

作为未来制造业发展的方向，工业大数据、云计算平台、MES系统等都是支持工业智能化的重要平台，它们需要完成大数据量的复杂处理，FPGA在其中可以发挥重要作用。

FPGA与GPU、CPU相比，具有性能高、能耗低、可硬件编程的特点。尽管FPGA 倍受看好，甚至新一代百度大脑也是基于FPGA 平台研发，微软、IBM 等公司都有专门的FPGA团队为服务器加速，但其毕竟不是专门为了适用深度学习算法而研发，实际仍然存在不少局限：

1. 基本单元的计算能力有限。为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力(主要依靠LUT 查找表)都远远低于CPU和GPU中的ALU模块。

2. 速度和功耗有待提升。相对专用定制芯片ASIC，FPGA 在处理速度和功耗方面仍然存在不小差距。

3. FPGA价格相对较为昂贵。在规模放量的情况下单块FPGA 的成本要远高与ASIC，因此FPGA 更适用于企业级用户，尤其是重配置、性能需求较高的军工和工业电子领域。

图片.png

ASIC：能效顶级、拥抱未来

ASIC 是一种为专门目的而设计的集成电路，功能特定的最优功耗AI 芯片，专为特定目的而设计。不同于GPU 和FPGA 的灵活性，定制化的ASIC一旦制造完成将不能更改，所以初期成本高、开发周期长的使得进入门槛高。目前，大多是具备AI 算法又成就梦想擅长芯片研发的巨头参与，如Google的TPU。

ASIC 的另一个未来发展是类脑芯片。类脑芯片是基于神经形态工程、借鉴人脑信息处理方式，适于实时处理非结构化信息、具有学习能力的超低功耗芯片，更接近人工智能目标。由于完美适用于神经网络相关算法，ASIC在性能和功耗上都要优于GPU FPGA，TPU1 是传统GPU性能的14-16倍，NPU是GPU的118 倍。寒武纪已发布对外应用指令集，预计ASIC将是未来AI 芯片的核心。

GPU在训练层应用广泛，ASIC在执行层表现较好。GPU、TPU 和NPU，适合的人工智能操作也不同。不同种类的芯片适用于不同的场景。

寒武纪终端闪耀、云端推进

目前AI芯片按照使用场景可以分为：云端(服务器端)和终端(移动端)芯片。云端AI芯片类似于超级计算机，终端AI芯片更偏重能耗。先发优势与浮点计算峰值决定GPU目前在云端处于主导地位。

图片.png

产品持续迭代，英伟达垄断GPU市场。英伟达占据全球GPU超过70%的市场份额，GPU产品占据公司2016年84%的收入来源。

图片.png

寒武纪在ASIC全面领先，指令集是杀手锏创新，终端应用逐步增强，NPU已形成事实上落地。

手机是最重要的移动终端产品，苹果的iPhone X采用的A11就是基于神经网络的芯片“Bionic 神经引擎”，其Face ID的面部数据都由该芯片处理。华为于2017年9月发布了全球首款移动端AI 芯片麒麟970，并应用在Mate 10手机中，这是华为和寒武纪深度合作，集成了专用于神经网络的NPU。

根据华为公布的测试数据，在处理相同的AI应用任务时，麒麟970的HiAI异构计算架构拥有大约50倍能效和25倍性能优势。9月4日，有媒体披露了中科院发给华为的贺信，称寒武纪公司研制并具有自主知识产权的“寒武纪1A深度学习处理器”，在人工智能应用上达到了4核CPU25倍以上的性能和50倍以上的能效。此次，麒麟970芯片集成寒武纪1A处理器作为其核心人工智能处理单元，实现了手机上本地、实时、高效的智能处理。（编辑：胡敏）

本文來自申萬宏源研究的研報《人工智能芯片的競爭：GPU正紅，ASIC擁抱未來》，作者為證券分析師劉洋。

智通財經APP獲悉，申萬宏源研究發表研報，對人工智能各類芯片做出分析和對比，內容如下：

AI加速需求超過CPU計算能力摩爾定律供給

人工智能的三大支撐是硬件、算法和數據，其中硬件指的是運行AI算法的芯片與相對應的計算平臺。在硬件方面，目前主要是使用GPU並行計算神經網絡，同時，FPGA和ASIC也具有未來異軍突起潛能。

目前AI芯片按照使用場景可以分為：雲端(服務器端)和終端(移動端)芯片。雲端主要指公有云、私有云、數據中心等需要用到的神經網絡專用服務器，終端指手機、車載、安防、音響、機器人等移動應用終端。有的廠商同時具備雲端和終端芯片的設計能力。

機器學習不斷演進，深度學習出現。人工智能是應用範疇的詞彙，機器學習是目前最有效實現人工智能的方法。深度學習是機器學習的子類，也是現有機器學習方法中，最奏效的一類。

深度學習的人工神經網絡算法與傳統計算模式不同。傳統計算機軟件是程序員根據所需要實現的功能原理編程，輸入至計算機運行即可，其計算過程主要體現在執行指令這個環節。而深度學習的人工神經網絡算法包含了兩個計算過程：

1. 訓練：用已有的樣本數據去訓練人工神經網絡。

2. 執行：用訓練好的人工神經網絡去運行其他數據。

深度學習是目前AI 領域最有效算法，深度學習模型需要通過大量的數據訓練才能獲得理想的效果，CPU優勢為處理各類數據及強邏輯判斷能力，解決單次複雜問題能力強。兩者需求並非完全匹配，深度學習需要一種替代硬件來滿足海量數據的運算需求。

圖片.png

除了CPU以外，AI使用的主流芯片種類有： GPU、FGPA、ASIC。

GPU將最早受益於安防等需求爆發

GPU是較成熟生態系統，最先受益人工智能爆發。GPU與CPU類似，只不過是一種專門進行圖像運算工作的微處理器。GPU是專為執行復雜的數學和幾何計算而設計的，這些計算是圖形渲染所必需的。GPU在浮點運算、並行計算等部分計算方面可以提供數十倍乃至於上百倍於CPU的性能。英偉達公司從2006 年下半年已經開始陸續推出相關的硬件產品以及軟件開發工具，目前是人工智能硬件市場的主導。

圖片.png

GPU作為圖像處理器，設計初衷是為了應對圖像處理中需要大規模並行計算。因此，其在應用於深度學習算法時，有三個方面的侷限性：

1. 應用過程中無法充分發揮並行計算優勢。深度學習包含訓練和應用兩個計算環節，GPU在深度學習算法訓練上非常高效，但在應用時一次性只能對於一張輸入圖像進行處理，並行度的優勢不能完全發揮。

2. 硬件結構固定不具備可編程性。深度學習算法還未完全穩定，若深度學習算法發生大的變化，GPU 無法像FPGA 一樣可以靈活的配置硬件結構

3. 運行深度學習算法能效遠低於FPGA。學術界和產業界研究已經證明，GPU計算方式與深度學習算法並非完全匹配，性能峯值無法被完全利用。運行深度學習算法中實現同樣的性能，GPU所需功耗遠大於FPGA。

FPGA：能效居中的中間方案

FPGA是能效中等、靈活度高、成本較高的AI白板。FPGA稱為現場可編程門陣列，用户可以根據自身的需求進行重複編程。FPGA比GPU具有更低的功耗，比ASIC具有更短的開發時間和更低的成本。目前來看，FPGA在兩個領域的應用前景十分巨大：工業互聯網領域、工業機器人設備領域。

作為未來製造業發展的方向，工業大數據、雲計算平臺、MES系統等都是支持工業智能化的重要平臺，它們需要完成大數據量的複雜處理，FPGA在其中可以發揮重要作用。

FPGA與GPU、CPU相比，具有性能高、能耗低、可硬件編程的特點。儘管FPGA 倍受看好，甚至新一代百度大腦也是基於FPGA 平臺研發，微軟、IBM 等公司都有專門的FPGA團隊為服務器加速，但其畢竟不是專門為了適用深度學習算法而研發，實際仍然存在不少侷限：

1. 基本單元的計算能力有限。為了實現可重構特性，FPGA 內部有大量極細粒度的基本單元，但是每個單元的計算能力(主要依靠LUT 查找表)都遠遠低於CPU和GPU中的ALU模塊。

2. 速度和功耗有待提升。相對專用定製芯片ASIC，FPGA 在處理速度和功耗方面仍然存在不小差距。

3. FPGA價格相對較為昂貴。在規模放量的情況下單塊FPGA 的成本要遠高與ASIC，因此FPGA 更適用於企業級用户，尤其是重配置、性能需求較高的軍工和工業電子領域。

圖片.png

ASIC：能效頂級、擁抱未來

ASIC 是一種為專門目的而設計的集成電路，功能特定的最優功耗AI 芯片，專為特定目的而設計。不同於GPU 和FPGA 的靈活性，定製化的ASIC一旦製造完成將不能更改，所以初期成本高、開發週期長的使得進入門檻高。目前，大多是具備AI 算法又成就夢想擅長芯片研發的巨頭參與，如Google的TPU。

ASIC 的另一個未來發展是類腦芯片。類腦芯片是基於神經形態工程、借鑑人腦信息處理方式，適於實時處理非結構化信息、具有學習能力的超低功耗芯片，更接近人工智能目標。由於完美適用於神經網絡相關算法，ASIC在性能和功耗上都要優於GPU FPGA，TPU1 是傳統GPU性能的14-16倍，NPU是GPU的118 倍。寒武紀已發佈對外應用指令集，預計ASIC將是未來AI 芯片的核心。

GPU在訓練層應用廣泛，ASIC在執行層表現較好。GPU、TPU 和NPU，適合的人工智能操作也不同。不同種類的芯片適用於不同的場景。

寒武紀終端閃耀、雲端推進

目前AI芯片按照使用場景可以分為：雲端(服務器端)和終端(移動端)芯片。雲端AI芯片類似於超級計算機，終端AI芯片更偏重能耗。先發優勢與浮點計算峯值決定GPU目前在雲端處於主導地位。

圖片.png

產品持續迭代，英偉達壟斷GPU市場。英偉達佔據全球GPU超過70%的市場份額，GPU產品佔據公司2016年84%的收入來源。

圖片.png

寒武紀在ASIC全面領先，指令集是殺手鐗創新，終端應用逐步增強，NPU已形成事實上落地。

手機是最重要的移動終端產品，蘋果的iPhone X採用的A11就是基於神經網絡的芯片“Bionic 神經引擎”，其Face ID的面部數據都由該芯片處理。華為於2017年9月發佈了全球首款移動端AI 芯片麒麟970，並應用在Mate 10手機中，這是華為和寒武紀深度合作，集成了專用於神經網絡的NPU。

根據華為公佈的測試數據，在處理相同的AI應用任務時，麒麟970的HiAI異構計算架構擁有大約50倍能效和25倍性能優勢。9月4日，有媒體披露了中科院發給華為的賀信，稱寒武紀公司研製並具有自主知識產權的“寒武紀1A深度學習處理器”，在人工智能應用上達到了4核CPU25倍以上的性能和50倍以上的能效。此次，麒麟970芯片集成寒武紀1A處理器作為其核心人工智能處理單元，實現了手機上本地、實時、高效的智能處理。（編輯：胡敏）

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

人工智能芯片的競爭：GPU正紅，ASIC擁抱未來

風險及免責聲明

聲明