NVIDIA、AMD旗艦顯卡創作性能對比測試

腾讯新闻 · 2020/12/16 17:38

原标题：NVIDIA、AMD旗舰显卡创作性能对比测试来源：腾讯新闻

2020年，我们正式进入了视频爆炸的年代，不论是以抖音、快手为代表的短视频APP，还是专注于较长视频的Bilibili平台，用户人数都得到了突破性的增长，越来越多的人拥有了生产力需求。此时高端显卡的重要性就得到体现了，显卡最早只不过是PC中的一个负责显示输出的零部件，最初显卡的作用就是把图形处理能力从CPU里独立出来。然而随着通用计算理念的诞生，GPU可以做越来越多的运算，俨然已经成为PC中的最核心部件。

GPU强大的并行处理能力在许多应用场景都表现出比CPU更为强劲的性能。CPU更多像是系统的调度师，而GPU则是真正的得力干将。特别是各种视频创作类软件，已经越来越依赖于GPU的加速。这时一张强大的显卡就不仅仅要承担传统的游戏功能了，也要肩负起为用户尽可能提供更强生产力性能的任务。在2020年末，A/N两家都拿出了自己当下最强大最先进的旗舰产品，并都对外宣称在生产力方面大有进步。

先是NVIDIA这边推出了RTX 3090显卡，加强的第三代AI单元以及第二代RT单元，让它可以在光线追踪渲染时更游刃有余，24GB的大容量也是让RTX 3090在生产力软件中足够给力。AMD这边的RX 6900 XT也不甘人后，今年同样加入了全新的RA光线加速器单元，在硬件上上支持了光线追踪渲染，此外，AMD也提升了自家的生产力性能，据官方介绍，相比之前的生产力老旗舰Radeon VⅡ，RX 6900XT在多个方面都具备显著的提升。很多读者朋友也在评论区留言说，希望可以看到两家2020年旗舰显卡的生产力性能比拼。因此为了搞清楚现在两家的生产力，我们将从目前最火热的渲染以及视频导出两个方面来进行对比测试。

Ampere架构下的RTX Studio

NVIDIA这次RTX 30系列GPU采用了全新的Ampere架构，在通用计算的SM单元、专为光线追踪运算的RT core，以及用于AI运算的Tensor core，这三个主要部分都作了大幅度的改进。在RTX 3080的首发评测中，我们已经可以看到这三个部分的升级，为游戏带来跨越性的性能提升，即使上到4K光追游戏中也能提供流畅的体验，而事实上这三大特性对于如今主流的创意应用，也能进一步提速。

更多CUDA、更强光追、更快AI

因为在RTX Studio支持的创意应用中，目前已经有50+主流创作软件利用上了RTX系列GPU的这三大特性，比如视频剪辑软件Premiere Pro支持基于CUDA的水银硬件加速，3D动画制作软件Blender可利用RT core来提高渲染速度，还有DaVinci Reslove、Photoshop、Lightroom在Tensor core帮助下，实现更快更准确的AI功能。

而在NVIDIA介绍中提到，相比上代Turing架构，这次在全新Ampere架构的内部，新的SM单元翻倍了FP32运算核心，使得CUDA数量大增，在首发的RTX 3080中拥有高达8704个CUDA单元，而第二代RT core增加了核心数量，提高了1.7倍的光线追踪运算性能，并新增支持了动态模糊效果的加速，最后第三代Tensor core也采用新的设计，内部翻倍了离散运算能力，整体AI运算速度提高2.7倍。

所以RTX 30系GPU这三个大提速，相应地也会帮助那些有利用到这三个特性的创意应用，获得更快速度处理速度，而且不仅如此，一些应用还获得新的功能特性。比如Blender支持了第二代RT core的动态模糊加速，在渲染带有高速运动场景的3D动画中，更更好应付当中的动态模糊效果，还有就是基于AI的超采样技术DLSS，现在也可以应用到创意工作中了，室内设计和渲染软件D5渲染器便是首个支持DLSS技术的3D渲染器，大幅提高了图像在实时预览时的帧率。

最大24GB显存、8K视频硬件解码

另外RTX 30系列GPU的其它一些新硬件特性也是对创意工作更加友好，新一代GPU支持到最大24GB的GDDR6X显存，应对需要超大显存的3D渲染和超高分辨率视频剪辑工作，有着比肩专业卡的充裕容量。而在游戏应用中目前还无法用满带宽的PCI-E 4.0，在高负载的创意应用中，更能利用上高传输带宽的优势。

最后RTX 30系GPU还升级了内置的NVDEC到第五代，支持最高8K分辨率HDR视频的AV1硬解码，配合HDMI 2.1接口的8K单线显示输出，这对于有8K HDR视频回放需要的视频后期工作者也会有很大帮助，加上本来的第七代NVENC硬件编码器，最高缩短了五倍的视频导出耗时，以及在直播串流中帮助降低硬件性能消耗。

Studio驱动、NVIDIA Broadcast

NVIDIA在RTX Studio中除了提供硬件特性，在软件方面还有Studio驱动和套件做软硬结合，除了为创意应用提供功能和稳定性的驱动优化支持，Sutdio还做了一些可以利用到RTX GPU特性的应用软件给创作者们，这次便为直播主们推出NVIDIA Broadcast，这用到RTX GPU的AI能力来对直播主的背景消除或替换，还有摄像头重构图，甚至帮助麦克风进行背景噪音消除。

在安装了NVIDIA Broadcast软件后，它会在摄像头、耳麦与直播软件之间建立一个中间者的角色，让外置设备可以利用到RTX GPU的AI能力来做一些AI增强效果，耳机和麦克风现在支持了降噪功能，AI会分析出哪些是主要音频，哪些是背景杂音进行降噪，给直播主和观众呈现清晰、有用的声音。

而摄像头现在有了自动重构图以及背景处理能力，从摄像头采集到画面，可以设置经过Broadcast进行处理，再传到OBS这些直播软件中，这可以让直播主的背景变得更为生动灵活，同时也可以降低直播场景的搭建成本。

另外对于游戏开发者，NVIDIA最新公布Omniverse Machinima，这是个用于快速构建动画CG的平台，将支持多个游戏和第三方插件，能更快帮助游戏开发者制作游戏里面的故事剧情动画，并可以利用AI技术配合摄像头，把现实姿势和脸部动作采集导入到3D动画建模中，另外NVIDIA还提供了一个基于GPU加速的Texture Tools，让材质艺术师和开发者可以更方便管理材质包。

最后游戏玩家们熟悉的GeForce Exprience，其内置的录制功能在新版本里面，将可以最高支持到8K30P的HDR视频捕抓，而无需额外的硬件采集设备，这让一些做游戏实况的视频UP主，或者游戏玩家可以用超高画质来记录下自己的精彩集锦。

NVENC加入到Premiere Pro工作流

在Premiere Pro的视频制作工作流当中，主要分为了原始素材导入、剪辑与添加效果，以及最后的成片导出三个主要阶段，对于硬件来说，在第一阶段的素材导入时，目前主要是利用CPU来进行解码（decode）工作的，而到了第二阶段的视频剪辑过程，处理这些操作的仍然主要是CPU，但如今的视频制作不仅仅是对素材进行简单的修剪、拼接，还会有各种转场、字幕、调色、颗粒化等等进阶效果，如果这些全靠CPU来回放预览，处理起来会非常卡顿和缓慢，所以在过去有不少视频工作者，会对原始素材进行生成代理文件，以降低对CPU资源的占用。

为此Adobe与NVIDIA一起合作，在PR中加入了支持利用GPU来处理回放、效果、多轨道预览等操作，以提升处理效率。这便是Mercury Playback Engine，它可以利用GPU来显著加速视频剪辑阶段的工作效率。

在目前最新版本的Premiere Pro里面，NVIDIA GPU已经支持非常多的效果加速，包括大家常用的变形稳定器、模糊、裁剪，以及Lumetri调色等等，这些在过去都是需要CPU，耗费大量时间去做分析和运算，但现在有了GPU的帮助，可以更快完成这些效果的合成速度，让剪辑工作变得更顺畅。

最后当大家把素材剪好、加完效果后，就要到第三阶段的导出视频了，而这次Preimere Pro的大升级，便是针对这一部分引入了额外的硬件加速，因为过去这个环节，其实也是更多采用CPU来进行编码（encode），由此可见现阶段CPU性能提升已经不足以满足视频处理的需要了。而GPU则将很多工作一点一点的接了过来，在整个工作流中扮演着越来越重要的角色。

RDNA 2架构的生产力提升

AMD在RDNA 2架构也引入了专门处理光线的RA单元，实时光线追踪最大的缺点就是对显卡的计算能力要求极高，传统的CU单元运行实时光线追踪的效率非常低，为了让实时光线追踪的画面更为流畅，AMD在RDNA 2架构的每一个CU计算单元里都放入了一个"Ray Accelerator"光线加速器，由此可推断CU计算单元越多，RDNA 2架构显卡的实时光线追踪性能就越强大。RX 6900 XT拥有80组CU单元，自然就拥有80个RA光线加速器。

"Ray Accelerator"光线加速器是用于处理光线相交计算的专用硬件。与软件方案相比，其相交计算性能可提高10倍。AMD还提到实时光线追踪性能也可以吃到“无限缓存”带来的增益，并且RA单元同样可以用在生产力软件中，让A卡用户可以使用光线追踪渲染技术。

在AMD的官方PPT中我们可以看到，官方宣传RX 6900 XT凭借着全新的RDNA 2架构，在渲染软件Blender中相比之前的老生产力A卡旗舰Radeon VⅡ在渲染速度上都有着近2倍的提升，提升幅度也算比较大了。

在视频渲染软件达芬奇、PR中，RX 6900 XT相比老旗舰也是进步明显，在PR的一个项目中甚至性能甚至可以达到老GCN架构的3倍。此外，PR在今年的新版本也加入了A卡乃至APU的AFM硬件加速支持，因此RX 6900 XT现在的生产力性能也是得到了一个明显的进步。

创意应用测试

目前3D动画渲染和高分辨率视频剪辑，在如今市场中拥有最多的用户量，所以我们这里的测试也是以这两类创意应用为主。而在显卡的选择上，自然就是这次RTX 30系的旗舰显卡RTX 3090以及AMD的RX 6900 XT了，这两张卡代表着A/N两家各自在2020年的显卡产品最高成果。

至于整个测试平台，我们搭建了一套AMD Ryzen 9 5800X平台，搭配的X570主板提供了PCI-E 4.0插槽，5800X可以说是目前在游戏性能以及创造性能上都兼具的性价比CPU，使用这颗CPU进行显卡的生产力测试不会产生瓶颈。

3D渲染类Blender

在众多3D动画制作软件中，Blender一直对GPU有着非常好的支持，其作为一个开源软件，它在近年也是获得越来越多个人和工作室用户的青睐，这得益于其自身灵活快速的软件发展，目前最新版Blender在其Cycles渲染器中，已经可以完好低依靠OptiX API，来调用到RTX GPU的硬件加速能力，包括支持光线追踪和AI降噪功能，并且在这次RTX 30系GPU，Blender Cycles也是最先支持了第二代RT core的动态模糊加速。

动态模糊效果主要是模拟真实相机在拍摄中因快门速度不够快，而无法捕抓到清晰的背景画面，这在3D动画中被用于体现物体在高速移动时的速度感，但是在3D渲染过程中，过去是无法做到在渲染时做动态模糊效果，只能后处理加入，这样会显得效果不够真实，而且极为耗费性能，但在NVIDIA RT光追单元的帮助下，在保证动态模糊精确性的同时，还提高了渲染效率，即提高画质，又加快了速度，官方称最高可以实现8倍于前代的速度。

AMD自从拥有了RA单元之后，基于开源的OpenCL，也可以进行光线追踪渲染了，因此两者的渲染时间长短就成了目前光追单元实力的体现。

后处理动态模糊光追加速动态模糊

通过对比最终渲染导出来的4K渲染图可以看到，采用后处理的动态模糊更像是简单地加上一些模糊滤镜，各处都很生硬和不自然，但在光追加速处理过的模糊效果就要明显好很多了，应该产生模糊的地方都做到，而最明显的就是无人机螺旋桨高速转动产生的残影，这更接近真实人眼看到的效果，在这种运动场景有精准的动态模糊，整体呈现出更强烈的冲击力。

在Blender这个项目测试中，RTX 3090的优势还是非常明显的，在三个项目中都领先了RX 6900 XT。最引人注目的当然是光线追踪动态模糊的成绩，RX 6900 XT的渲染时间约为RTX 3090的2.4倍，两者目前的光追渲染时间还是有较大差距的。这一方面跟两者的硬件架构光追单元的设计有一定的关系，另一方面RTX 3090采用的OptiX API是经过专属优化的，AMD采用的OpenCL是一个大众化的开放型API，在针对性的光追优化上还是差点意思，至少光追渲染这方面两者是差距明显的。

视频剪辑类Adobe Premiere Pro

作为视频后期工作中最流行的软件，Premiere Pro很早就支持了CUDA运算的水银加速，帮助加快视频剪辑操作，而且Adobe还利用上RTX GPU的AI运算能力，来解决一些重复繁琐的工作，比如AutoReframe，这大大提高了如今流行的竖屏视频制作效率，另外从2020版本开始，在视频最后的导出阶段，现在还支持利用NVENC来加速编码，相比传统的软件编码，大大缩短了导出时间。此外，AMD显卡也在这次更新中得到了基于OpenCL的AFM硬件加速支持，两家显卡终于可以在PR上进行同步PK了。

在Premiere Pro中RTX 3090与RX 6900 XT的差距就没有刚才的Blender那么大了，但RTX 3090依旧拥有一定的优势。与此同时我还做了只用CPU渲染的情况作为对比测试，可以看到两张显卡的渲染时间都远远小于Ryzen 7 5800X，CPU渲染视频的效率现在被显卡拉的太远了，推荐大家一定要下载最新版本的PR并且开启硬件加速，从而提高自己的导出速度。

BMD DaVinci Resolve

在视频调色和剪辑工作中有着重要地位的DaVinci Resolve，向来都是个硬件优化良好的软件，可以在显卡的帮助下，提供进行高分辨率视频的剪辑工作，这款软件现在在也受到越来越受到欢迎。

而除了性能方面的加速，还在功能方面有利用到硬件的特性，DaVinci Resolve通过NVIDIA RTX系列GPU特有的Tensor Core，来做一些AI功能的加速运算，比如稳定器的补帧、Super Scale、自动适配调色等，不少高级剪辑工作中会用到的操作，提高视频后期用户的工作效率。

DaVinci Resolve相对来说更能体现显卡间的性能差别，但在5个DEMO测试中，A卡的渲染时间都是较长的，其中第三个和第五个DEMO中落后的尤为明显，我曾经怀疑是我自己测试出错，但经过多次的重启以及驱动检查，结果都是如此。后来经过一番寻找，最终在任务管理器中我总算发现了罪魁祸首。

我们看到在达芬奇软件渲染的时候，RX 6900 XT负责硬件加速的Compute 1单元的占用率呈锯齿形，经过实际观察，每过一秒钟这个单元的占用率就会下降一下，再升上来，如此反复直至渲染完成，这个应该说是一个很奇怪的事情，很明显RX 6900 XT因此没能完全发挥出实力。

这种情况的发生跟目前A卡暂时未推出相应的Studio驱动不无关系，游戏的驱动跟生产力驱动本来就是针对性软件不同，一个侧重实际游戏，一个侧重生产力软件，如果一起用的话就可能会出现上面的问题。这方面NVIDIA确实做的不错，意识到了混用两个驱动可能会给生产力软件带来不便，因此特意推出了RTX Studio驱动以及GeForce Game Ready两个方向的驱动供玩家选择。至于GPU温度方面，上图显示的应该是AMD的GPU热点温度，所以不是过热降频。

8K游戏测试

最后我还顺便测试了一下8K游戏的情况，结果不出所料，RTX 3090凭借着更大的真实带宽在8K分辨率时的表现会比RX 6900 XT还要强20%-30%，在一些3A大作上更流畅，而像极限竞速：地平线这种优化不错的游戏，则是有67帧的表现，跨越了60帧的流畅游玩大关。AMD这边则是没能跨越60帧的及格线，因此目前两者在8K游戏上还是差距明显的。

最后再来看一下现在非常火爆的《赛博朋克2077》，现在正好手头有一个8K显示器，不玩可惜了。由于现阶段的A卡还没得到《赛博朋克2077》的光追支持，光追的重要性对这款游戏还特别重要，因此我就只用RTX 3090试验了一下，以下是帧数表现：

原生8K光追DLSS超级性能

在8K超高分辨率的情况下，即便是RTX 3090帧数表现也不理想，好在这款游戏支持DLSS2.0技术，我打开专门为8K而生的超级性能模式，发现帧数提升了一大截。虽然在绝对画质上DLSS超级性能模式还是会比原生画质稍逊一些，广告牌有时会出现摩尔纹。但打开DLSS2.0之后，游戏从8K原生不到10帧的PPT模式，到已经超过35帧可以比较流畅游玩，这点画质牺牲我觉得还是可以接受的，毕竟一个可以玩一个不可以玩，原生8K画质再出色也只能截图，不能实际游玩，实际意义就不大。

开启DLSS2.0之后我们看到在游戏中显存的占用率也从20G下降到了11G左右，显存压力大大减小，因此DLSS2.0功能无疑是现阶段玩家体验8K游戏的最佳利器。

总结

通过上面的测试我们看到目前两家旗舰显卡的生产力差距还是比较明显的，虽然这次AMD的生产力性能进步不小，水平应该是跟20系显卡相当。但RTX 30系更进一步的创意性能提升，以及NVIDIA Studio、CUDA生态的建立则不是一朝一夕就能突破的，在这些方面NVIDIA还是下了很大功夫的。

NVIDIA的创作生态优势确实给RTX 3090带来了巨大的收益，创意类软件的应用一方面是速度，另一方面是稳定性和专属工作流的优化。之前在显卡领域一直是分为游戏显卡以及设计专用显卡两个部分，现在NVIDIA RTX Studio和CUDA把创意类软件的生态和游戏生态融合的非常好，不同需求的用户可以通过切换不同的驱动来满足游戏与创造的双加速。不少生产力软件也十分依赖于RTX生态以及CUDA生态，而AMD这方面还是有待加强，通用的OpenCL API目前看还不能跟RTX Studio以及CUDA生态抗衡，在稳定性以及性能方面都有明显的差距。

最后则是游戏性能，目前RTX 3090其实是一张全面的显卡，无论你是游戏发烧友还是内容创造者，这张显卡都不会让你失望。AMD的RX 6900 XT现在更大的意义上还是一张传统的游戏显卡，因此现阶段的话，RTX 3090在生产力以及高分辨率游戏体验方面是优于RX 6900 XT的。

原標題：NVIDIA、AMD旗艦顯卡創作性能對比測試來源：騰訊新聞

2020年，我們正式進入了視頻爆炸的年代，不論是以抖音、快手為代表的短視頻APP，還是專注於較長視頻的Bilibili平臺，用户人數都得到了突破性的增長，越來越多的人擁有了生產力需求。此時高端顯卡的重要性就得到體現了，顯卡最早只不過是PC中的一個負責顯示輸出的零部件，最初顯卡的作用就是把圖形處理能力從CPU裏獨立出來。然而隨着通用計算理念的誕生，GPU可以做越來越多的運算，儼然已經成為PC中的最核心部件。

GPU強大的並行處理能力在許多應用場景都表現出比CPU更為強勁的性能。CPU更多像是系統的調度師，而GPU則是真正的得力幹將。特別是各種視頻創作類軟件，已經越來越依賴於GPU的加速。這時一張強大的顯卡就不僅僅要承擔傳統的遊戲功能了，也要肩負起為用户儘可能提供更強生產力性能的任務。在2020年末，A/N兩家都拿出了自己當下最強大最先進的旗艦產品，並都對外宣稱在生產力方面大有進步。

先是NVIDIA這邊推出了RTX 3090顯卡，加強的第三代AI單元以及第二代RT單元，讓它可以在光線追蹤渲染時更遊刃有餘，24GB的大容量也是讓RTX 3090在生產力軟件中足夠給力。AMD這邊的RX 6900 XT也不甘人後，今年同樣加入了全新的RA光線加速器單元，在硬件上上支持了光線追蹤渲染，此外，AMD也提升了自家的生產力性能，據官方介紹，相比之前的生產力老旗艦Radeon VⅡ，RX 6900XT在多個方面都具備顯著的提升。很多讀者朋友也在評論區留言説，希望可以看到兩家2020年旗艦顯卡的生產力性能比拼。因此為了搞清楚現在兩家的生產力，我們將從目前最火熱的渲染以及視頻導出兩個方面來進行對比測試。

Ampere架構下的RTX Studio

NVIDIA這次RTX 30系列GPU採用了全新的Ampere架構，在通用計算的SM單元、專為光線追蹤運算的RT core，以及用於AI運算的Tensor core，這三個主要部分都作了大幅度的改進。在RTX 3080的首發評測中，我們已經可以看到這三個部分的升級，為遊戲帶來跨越性的性能提升，即使上到4K光追遊戲中也能提供流暢的體驗，而事實上這三大特性對於如今主流的創意應用，也能進一步提速。

更多CUDA、更強光追、更快AI

因為在RTX Studio支持的創意應用中，目前已經有50+主流創作軟件利用上了RTX系列GPU的這三大特性，比如視頻剪輯軟件Premiere Pro支持基於CUDA的水銀硬件加速，3D動畫製作軟件Blender可利用RT core來提高渲染速度，還有DaVinci Reslove、Photoshop、Lightroom在Tensor core幫助下，實現更快更準確的AI功能。

而在NVIDIA介紹中提到，相比上代Turing架構，這次在全新Ampere架構的內部，新的SM單元翻倍了FP32運算核心，使得CUDA數量大增，在首發的RTX 3080中擁有高達8704個CUDA單元，而第二代RT core增加了核心數量，提高了1.7倍的光線追蹤運算性能，並新增支持了動態模糊效果的加速，最後第三代Tensor core也採用新的設計，內部翻倍了離散運算能力，整體AI運算速度提高2.7倍。

所以RTX 30系GPU這三個大提速，相應地也會幫助那些有利用到這三個特性的創意應用，獲得更快速度處理速度，而且不僅如此，一些應用還獲得新的功能特性。比如Blender支持了第二代RT core的動態模糊加速，在渲染帶有高速運動場景的3D動畫中，更更好應付當中的動態模糊效果，還有就是基於AI的超採樣技術DLSS，現在也可以應用到創意工作中了，室內設計和渲染軟件D5渲染器便是首個支持DLSS技術的3D渲染器，大幅提高了圖像在實時預覽時的幀率。

最大24GB顯存、8K視頻硬件解碼

另外RTX 30系列GPU的其它一些新硬件特性也是對創意工作更加友好，新一代GPU支持到最大24GB的GDDR6X顯存，應對需要超大顯存的3D渲染和超高分辨率視頻剪輯工作，有着比肩專業卡的充裕容量。而在遊戲應用中目前還無法用滿帶寬的PCI-E 4.0，在高負載的創意應用中，更能利用上高傳輸帶寬的優勢。

最後RTX 30系GPU還升級了內置的NVDEC到第五代，支持最高8K分辨率HDR視頻的AV1硬解碼，配合HDMI 2.1接口的8K單線顯示輸出，這對於有8K HDR視頻回放需要的視頻後期工作者也會有很大幫助，加上本來的第七代NVENC硬件編碼器，最高縮短了五倍的視頻導出耗時，以及在直播串流中幫助降低硬件性能消耗。

Studio驅動、NVIDIA Broadcast

NVIDIA在RTX Studio中除了提供硬件特性，在軟件方面還有Studio驅動和套件做軟硬結合，除了為創意應用提供功能和穩定性的驅動優化支持，Sutdio還做了一些可以利用到RTX GPU特性的應用軟件給創作者們，這次便為直播主們推出NVIDIA Broadcast，這用到RTX GPU的AI能力來對直播主的背景消除或替換，還有攝像頭重構圖，甚至幫助麥克風進行背景噪音消除。

在安裝了NVIDIA Broadcast軟件後，它會在攝像頭、耳麥與直播軟件之間建立一箇中間者的角色，讓外置設備可以利用到RTX GPU的AI能力來做一些AI增強效果，耳機和麥克風現在支持了降噪功能，AI會分析出哪些是主要音頻，哪些是背景雜音進行降噪，給直播主和觀眾呈現清晰、有用的聲音。

而攝像頭現在有了自動重構圖以及背景處理能力，從攝像頭採集到畫面，可以設置經過Broadcast進行處理，再傳到OBS這些直播軟件中，這可以讓直播主的背景變得更為生動靈活，同時也可以降低直播場景的搭建成本。

另外對於遊戲開發者，NVIDIA最新公佈Omniverse Machinima，這是個用於快速構建動畫CG的平臺，將支持多個遊戲和第三方插件，能更快幫助遊戲開發者製作遊戲裏面的故事劇情動畫，並可以利用AI技術配合攝像頭，把現實姿勢和臉部動作採集導入到3D動畫建模中，另外NVIDIA還提供了一個基於GPU加速的Texture Tools，讓材質藝術師和開發者可以更方便管理材質包。

最後遊戲玩家們熟悉的GeForce Exprience，其內置的錄製功能在新版本里面，將可以最高支持到8K30P的HDR視頻捕抓，而無需額外的硬件採集設備，這讓一些做遊戲實況的視頻UP主，或者遊戲玩家可以用超高畫質來記錄下自己的精彩集錦。

NVENC加入到Premiere Pro工作流

在Premiere Pro的視頻製作工作流當中，主要分為了原始素材導入、剪輯與添加效果，以及最後的成片導出三個主要階段，對於硬件來説，在第一階段的素材導入時，目前主要是利用CPU來進行解碼（decode）工作的，而到了第二階段的視頻剪輯過程，處理這些操作的仍然主要是CPU，但如今的視頻製作不僅僅是對素材進行簡單的修剪、拼接，還會有各種轉場、字幕、調色、顆粒化等等進階效果，如果這些全靠CPU來回放預覽，處理起來會非常卡頓和緩慢，所以在過去有不少視頻工作者，會對原始素材進行生成代理文件，以降低對CPU資源的佔用。

為此Adobe與NVIDIA一起合作，在PR中加入了支持利用GPU來處理回放、效果、多軌道預覽等操作，以提升處理效率。這便是Mercury Playback Engine，它可以利用GPU來顯著加速視頻剪輯階段的工作效率。

在目前最新版本的Premiere Pro裏面，NVIDIA GPU已經支持非常多的效果加速，包括大家常用的變形穩定器、模糊、裁剪，以及Lumetri調色等等，這些在過去都是需要CPU，耗費大量時間去做分析和運算，但現在有了GPU的幫助，可以更快完成這些效果的合成速度，讓剪輯工作變得更順暢。

最後當大家把素材剪好、加完效果後，就要到第三階段的導出視頻了，而這次Preimere Pro的大升級，便是針對這一部分引入了額外的硬件加速，因為過去這個環節，其實也是更多采用CPU來進行編碼（encode），由此可見現階段CPU性能提升已經不足以滿足視頻處理的需要了。而GPU則將很多工作一點一點的接了過來，在整個工作流中扮演着越來越重要的角色。

RDNA 2架構的生產力提升

AMD在RDNA 2架構也引入了專門處理光線的RA單元，實時光線追蹤最大的缺點就是對顯卡的計算能力要求極高，傳統的CU單元運行實時光線追蹤的效率非常低，為了讓實時光線追蹤的畫面更為流暢，AMD在RDNA 2架構的每一個CU計算單元裏都放入了一個"Ray Accelerator"光線加速器，由此可推斷CU計算單元越多，RDNA 2架構顯卡的實時光線追蹤性能就越強大。RX 6900 XT擁有80組CU單元，自然就擁有80個RA光線加速器。

"Ray Accelerator"光線加速器是用於處理光線相交計算的專用硬件。與軟件方案相比，其相交計算性能可提高10倍。AMD還提到實時光線追蹤性能也可以吃到“無限緩存”帶來的增益，並且RA單元同樣可以用在生產力軟件中，讓A卡用户可以使用光線追蹤渲染技術。

在AMD的官方PPT中我們可以看到，官方宣傳RX 6900 XT憑藉着全新的RDNA 2架構，在渲染軟件Blender中相比之前的老生產力A卡旗艦Radeon VⅡ在渲染速度上都有着近2倍的提升，提升幅度也算比較大了。

在視頻渲染軟件達芬奇、PR中，RX 6900 XT相比老旗艦也是進步明顯，在PR的一個項目中甚至性能甚至可以達到老GCN架構的3倍。此外，PR在今年的新版本也加入了A卡乃至APU的AFM硬件加速支持，因此RX 6900 XT現在的生產力性能也是得到了一個明顯的進步。

創意應用測試

目前3D動畫渲染和高分辨率視頻剪輯，在如今市場中擁有最多的用户量，所以我們這裏的測試也是以這兩類創意應用為主。而在顯卡的選擇上，自然就是這次RTX 30系的旗艦顯卡RTX 3090以及AMD的RX 6900 XT了，這兩張卡代表着A/N兩家各自在2020年的顯卡產品最高成果。

至於整個測試平臺，我們搭建了一套AMD Ryzen 9 5800X平臺，搭配的X570主板提供了PCI-E 4.0插槽，5800X可以説是目前在遊戲性能以及創造性能上都兼具的性價比CPU，使用這顆CPU進行顯卡的生產力測試不會產生瓶頸。

3D渲染類Blender

在眾多3D動畫製作軟件中，Blender一直對GPU有着非常好的支持，其作為一個開源軟件，它在近年也是獲得越來越多個人和工作室用户的青睞，這得益於其自身靈活快速的軟件發展，目前最新版Blender在其Cycles渲染器中，已經可以完好低依靠OptiX API，來調用到RTX GPU的硬件加速能力，包括支持光線追蹤和AI降噪功能，並且在這次RTX 30系GPU，Blender Cycles也是最先支持了第二代RT core的動態模糊加速。

動態模糊效果主要是模擬真實相機在拍攝中因快門速度不夠快，而無法捕抓到清晰的背景畫面，這在3D動畫中被用於體現物體在高速移動時的速度感，但是在3D渲染過程中，過去是無法做到在渲染時做動態模糊效果，只能後處理加入，這樣會顯得效果不夠真實，而且極為耗費性能，但在NVIDIA RT光追單元的幫助下，在保證動態模糊精確性的同時，還提高了渲染效率，即提高畫質，又加快了速度，官方稱最高可以實現8倍於前代的速度。

AMD自從擁有了RA單元之後，基於開源的OpenCL，也可以進行光線追蹤渲染了，因此兩者的渲染時間長短就成了目前光追單元實力的體現。

後處理動態模糊光追加速動態模糊

通過對比最終渲染導出來的4K渲染圖可以看到，採用後處理的動態模糊更像是簡單地加上一些模糊濾鏡，各處都很生硬和不自然，但在光追加速處理過的模糊效果就要明顯好很多了，應該產生模糊的地方都做到，而最明顯的就是無人機螺旋槳高速轉動產生的殘影，這更接近真實人眼看到的效果，在這種運動場景有精準的動態模糊，整體呈現出更強烈的衝擊力。

在Blender這個項目測試中，RTX 3090的優勢還是非常明顯的，在三個項目中都領先了RX 6900 XT。最引人注目的當然是光線追蹤動態模糊的成績，RX 6900 XT的渲染時間約為RTX 3090的2.4倍，兩者目前的光追渲染時間還是有較大差距的。這一方面跟兩者的硬件架構光追單元的設計有一定的關係，另一方面RTX 3090採用的OptiX API是經過專屬優化的，AMD採用的OpenCL是一個大眾化的開放型API，在針對性的光追優化上還是差點意思，至少光追渲染這方面兩者是差距明顯的。

視頻剪輯類Adobe Premiere Pro

作為視頻後期工作中最流行的軟件，Premiere Pro很早就支持了CUDA運算的水銀加速，幫助加快視頻剪輯操作，而且Adobe還利用上RTX GPU的AI運算能力，來解決一些重複繁瑣的工作，比如AutoReframe，這大大提高了如今流行的豎屏視頻製作效率，另外從2020版本開始，在視頻最後的導出階段，現在還支持利用NVENC來加速編碼，相比傳統的軟件編碼，大大縮短了導出時間。此外，AMD顯卡也在這次更新中得到了基於OpenCL的AFM硬件加速支持，兩家顯卡終於可以在PR上進行同步PK了。

在Premiere Pro中RTX 3090與RX 6900 XT的差距就沒有剛才的Blender那麼大了，但RTX 3090依舊擁有一定的優勢。與此同時我還做了只用CPU渲染的情況作為對比測試，可以看到兩張顯卡的渲染時間都遠遠小於Ryzen 7 5800X，CPU渲染視頻的效率現在被顯卡拉的太遠了，推薦大家一定要下載最新版本的PR並且開啟硬件加速，從而提高自己的導出速度。

BMD DaVinci Resolve

在視頻調色和剪輯工作中有着重要地位的DaVinci Resolve，向來都是個硬件優化良好的軟件，可以在顯卡的幫助下，提供進行高分辨率視頻的剪輯工作，這款軟件現在在也受到越來越受到歡迎。

而除了性能方面的加速，還在功能方面有利用到硬件的特性，DaVinci Resolve通過NVIDIA RTX系列GPU特有的Tensor Core，來做一些AI功能的加速運算，比如穩定器的補幀、Super Scale、自動適配調色等，不少高級剪輯工作中會用到的操作，提高視頻後期用户的工作效率。

DaVinci Resolve相對來説更能體現顯卡間的性能差別，但在5個DEMO測試中，A卡的渲染時間都是較長的，其中第三個和第五個DEMO中落後的尤為明顯，我曾經懷疑是我自己測試出錯，但經過多次的重啟以及驅動檢查，結果都是如此。後來經過一番尋找，最終在任務管理器中我總算髮現了罪魁禍首。

我們看到在達芬奇軟件渲染的時候，RX 6900 XT負責硬件加速的Compute 1單元的佔用率呈鋸齒形，經過實際觀察，每過一秒鐘這個單元的佔用率就會下降一下，再升上來，如此反覆直至渲染完成，這個應該説是一個很奇怪的事情，很明顯RX 6900 XT因此沒能完全發揮出實力。

這種情況的發生跟目前A卡暫時未推出相應的Studio驅動不無關係，遊戲的驅動跟生產力驅動本來就是針對性軟件不同，一個側重實際遊戲，一個側重生產力軟件，如果一起用的話就可能會出現上面的問題。這方面NVIDIA確實做的不錯，意識到了混用兩個驅動可能會給生產力軟件帶來不便，因此特意推出了RTX Studio驅動以及GeForce Game Ready兩個方向的驅動供玩家選擇。至於GPU温度方面，上圖顯示的應該是AMD的GPU熱點温度，所以不是過熱降頻。

8K遊戲測試

最後我還順便測試了一下8K遊戲的情況，結果不出所料，RTX 3090憑藉着更大的真實帶寬在8K分辨率時的表現會比RX 6900 XT還要強20%-30%，在一些3A大作上更流暢，而像極限競速：地平線這種優化不錯的遊戲，則是有67幀的表現，跨越了60幀的流暢遊玩大關。AMD這邊則是沒能跨越60幀的及格線，因此目前兩者在8K遊戲上還是差距明顯的。

最後再來看一下現在非常火爆的《賽博朋克2077》，現在正好手頭有一個8K顯示器，不玩可惜了。由於現階段的A卡還沒得到《賽博朋克2077》的光追支持，光追的重要性對這款遊戲還特別重要，因此我就只用RTX 3090試驗了一下，以下是幀數表現：

原生8K光追DLSS超級性能

在8K超高分辨率的情況下，即便是RTX 3090幀數表現也不理想，好在這款遊戲支持DLSS2.0技術，我打開專門為8K而生的超級性能模式，發現幀數提升了一大截。雖然在絕對畫質上DLSS超級性能模式還是會比原生畫質稍遜一些，廣告牌有時會出現摩爾紋。但打開DLSS2.0之後，遊戲從8K原生不到10幀的PPT模式，到已經超過35幀可以比較流暢遊玩，這點畫質犧牲我覺得還是可以接受的，畢竟一個可以玩一個不可以玩，原生8K畫質再出色也只能截圖，不能實際遊玩，實際意義就不大。

開啟DLSS2.0之後我們看到在遊戲中顯存的佔用率也從20G下降到了11G左右，顯存壓力大大減小，因此DLSS2.0功能無疑是現階段玩家體驗8K遊戲的最佳利器。

總結

通過上面的測試我們看到目前兩家旗艦顯卡的生產力差距還是比較明顯的，雖然這次AMD的生產力性能進步不小，水平應該是跟20系顯卡相當。但RTX 30系更進一步的創意性能提升，以及NVIDIA Studio、CUDA生態的建立則不是一朝一夕就能突破的，在這些方面NVIDIA還是下了很大功夫的。

NVIDIA的創作生態優勢確實給RTX 3090帶來了巨大的收益，創意類軟件的應用一方面是速度，另一方面是穩定性和專屬工作流的優化。之前在顯卡領域一直是分為遊戲顯卡以及設計專用顯卡兩個部分，現在NVIDIA RTX Studio和CUDA把創意類軟件的生態和遊戲生態融合的非常好，不同需求的用户可以通過切換不同的驅動來滿足遊戲與創造的雙加速。不少生產力軟件也十分依賴於RTX生態以及CUDA生態，而AMD這方面還是有待加強，通用的OpenCL API目前看還不能跟RTX Studio以及CUDA生態抗衡，在穩定性以及性能方面都有明顯的差距。

最後則是遊戲性能，目前RTX 3090其實是一張全面的顯卡，無論你是遊戲發燒友還是內容創造者，這張顯卡都不會讓你失望。AMD的RX 6900 XT現在更大的意義上還是一張傳統的遊戲顯卡，因此現階段的話，RTX 3090在生產力以及高分辨率遊戲體驗方面是優於RX 6900 XT的。

譯文內容由第三人軟體翻譯。

以上內容僅用作資訊或教育之目的，不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。

NVIDIA、AMD旗舰显卡创作性能对比测试

NVIDIA、AMD旗艦顯卡創作性能對比測試

風險及免責聲明

聲明