原標題:NVIDIA、AMD旗艦顯卡創作性能對比測試 來源:騰訊新聞
2020年,我們正式進入了視頻爆炸的年代,不論是以抖音、快手為代表的短視頻APP,還是專注於較長視頻的Bilibili平臺,用户人數都得到了突破性的增長,越來越多的人擁有了生產力需求。此時高端顯卡的重要性就得到體現了,顯卡最早只不過是PC中的一個負責顯示輸出的零部件,最初顯卡的作用就是把圖形處理能力從CPU裏獨立出來。然而隨着通用計算理念的誕生,GPU可以做越來越多的運算,儼然已經成為PC中的最核心部件。
GPU強大的並行處理能力在許多應用場景都表現出比CPU更為強勁的性能。CPU更多像是系統的調度師,而GPU則是真正的得力幹將。特別是各種視頻創作類軟件,已經越來越依賴於GPU的加速。這時一張強大的顯卡就不僅僅要承擔傳統的遊戲功能了,也要肩負起為用户儘可能提供更強生產力性能的任務。在2020年末,A/N兩家都拿出了自己當下最強大最先進的旗艦產品,並都對外宣稱在生產力方面大有進步。
先是NVIDIA這邊推出了RTX 3090顯卡,加強的第三代AI單元以及第二代RT單元,讓它可以在光線追蹤渲染時更遊刃有餘,24GB的大容量也是讓RTX 3090在生產力軟件中足夠給力。AMD這邊的RX 6900 XT也不甘人後,今年同樣加入了全新的RA光線加速器單元,在硬件上上支持了光線追蹤渲染,此外,AMD也提升了自家的生產力性能,據官方介紹,相比之前的生產力老旗艦Radeon VⅡ,RX 6900XT在多個方面都具備顯著的提升。很多讀者朋友也在評論區留言説,希望可以看到兩家2020年旗艦顯卡的生產力性能比拼。因此為了搞清楚現在兩家的生產力,我們將從目前最火熱的渲染以及視頻導出兩個方面來進行對比測試。
Ampere架構下的RTX Studio
NVIDIA這次RTX 30系列GPU採用了全新的Ampere架構,在通用計算的SM單元、專為光線追蹤運算的RT core,以及用於AI運算的Tensor core,這三個主要部分都作了大幅度的改進。在RTX 3080的首發評測中,我們已經可以看到這三個部分的升級,為遊戲帶來跨越性的性能提升,即使上到4K光追遊戲中也能提供流暢的體驗,而事實上這三大特性對於如今主流的創意應用,也能進一步提速。
更多CUDA、更強光追、更快AI
因為在RTX Studio支持的創意應用中,目前已經有50+主流創作軟件利用上了RTX系列GPU的這三大特性,比如視頻剪輯軟件Premiere Pro支持基於CUDA的水銀硬件加速,3D動畫製作軟件Blender可利用RT core來提高渲染速度,還有DaVinci Reslove、Photoshop、Lightroom在Tensor core幫助下,實現更快更準確的AI功能。
而在NVIDIA介紹中提到,相比上代Turing架構,這次在全新Ampere架構的內部,新的SM單元翻倍了FP32運算核心,使得CUDA數量大增,在首發的RTX 3080中擁有高達8704個CUDA單元,而第二代RT core增加了核心數量,提高了1.7倍的光線追蹤運算性能,並新增支持了動態模糊效果的加速,最後第三代Tensor core也採用新的設計,內部翻倍了離散運算能力,整體AI運算速度提高2.7倍。
所以RTX 30系GPU這三個大提速,相應地也會幫助那些有利用到這三個特性的創意應用,獲得更快速度處理速度,而且不僅如此,一些應用還獲得新的功能特性。比如Blender支持了第二代RT core的動態模糊加速,在渲染帶有高速運動場景的3D動畫中,更更好應付當中的動態模糊效果,還有就是基於AI的超採樣技術DLSS,現在也可以應用到創意工作中了,室內設計和渲染軟件D5渲染器便是首個支持DLSS技術的3D渲染器,大幅提高了圖像在實時預覽時的幀率。
最大24GB顯存、8K視頻硬件解碼
另外RTX 30系列GPU的其它一些新硬件特性也是對創意工作更加友好,新一代GPU支持到最大24GB的GDDR6X顯存,應對需要超大顯存的3D渲染和超高分辨率視頻剪輯工作,有着比肩專業卡的充裕容量。而在遊戲應用中目前還無法用滿帶寬的PCI-E 4.0,在高負載的創意應用中,更能利用上高傳輸帶寬的優勢。
最後RTX 30系GPU還升級了內置的NVDEC到第五代,支持最高8K分辨率HDR視頻的AV1硬解碼,配合HDMI 2.1接口的8K單線顯示輸出,這對於有8K HDR視頻回放需要的視頻後期工作者也會有很大幫助,加上本來的第七代NVENC硬件編碼器,最高縮短了五倍的視頻導出耗時,以及在直播串流中幫助降低硬件性能消耗。
Studio驅動、NVIDIA Broadcast
NVIDIA在RTX Studio中除了提供硬件特性,在軟件方面還有Studio驅動和套件做軟硬結合,除了為創意應用提供功能和穩定性的驅動優化支持,Sutdio還做了一些可以利用到RTX GPU特性的應用軟件給創作者們,這次便為直播主們推出NVIDIA Broadcast,這用到RTX GPU的AI能力來對直播主的背景消除或替換,還有攝像頭重構圖,甚至幫助麥克風進行背景噪音消除。
在安裝了NVIDIA Broadcast軟件後,它會在攝像頭、耳麥與直播軟件之間建立一箇中間者的角色,讓外置設備可以利用到RTX GPU的AI能力來做一些AI增強效果,耳機和麥克風現在支持了降噪功能,AI會分析出哪些是主要音頻,哪些是背景雜音進行降噪,給直播主和觀眾呈現清晰、有用的聲音。
而攝像頭現在有了自動重構圖以及背景處理能力,從攝像頭採集到畫面,可以設置經過Broadcast進行處理,再傳到OBS這些直播軟件中,這可以讓直播主的背景變得更為生動靈活,同時也可以降低直播場景的搭建成本。
另外對於遊戲開發者,NVIDIA最新公佈Omniverse Machinima,這是個用於快速構建動畫CG的平臺,將支持多個遊戲和第三方插件,能更快幫助遊戲開發者製作遊戲裏面的故事劇情動畫,並可以利用AI技術配合攝像頭,把現實姿勢和臉部動作採集導入到3D動畫建模中,另外NVIDIA還提供了一個基於GPU加速的Texture Tools,讓材質藝術師和開發者可以更方便管理材質包。
最後遊戲玩家們熟悉的GeForce Exprience,其內置的錄製功能在新版本里面,將可以最高支持到8K30P的HDR視頻捕抓,而無需額外的硬件採集設備,這讓一些做遊戲實況的視頻UP主,或者遊戲玩家可以用超高畫質來記錄下自己的精彩集錦。
NVENC加入到Premiere Pro工作流
在Premiere Pro的視頻製作工作流當中,主要分為了原始素材導入、剪輯與添加效果,以及最後的成片導出三個主要階段,對於硬件來説,在第一階段的素材導入時,目前主要是利用CPU來進行解碼(decode)工作的,而到了第二階段的視頻剪輯過程,處理這些操作的仍然主要是CPU,但如今的視頻製作不僅僅是對素材進行簡單的修剪、拼接,還會有各種轉場、字幕、調色、顆粒化等等進階效果,如果這些全靠CPU來回放預覽,處理起來會非常卡頓和緩慢,所以在過去有不少視頻工作者,會對原始素材進行生成代理文件,以降低對CPU資源的佔用。
為此Adobe與NVIDIA一起合作,在PR中加入了支持利用GPU來處理回放、效果、多軌道預覽等操作,以提升處理效率。這便是Mercury Playback Engine,它可以利用GPU來顯著加速視頻剪輯階段的工作效率。
在目前最新版本的Premiere Pro裏面,NVIDIA GPU已經支持非常多的效果加速,包括大家常用的變形穩定器、模糊、裁剪,以及Lumetri調色等等,這些在過去都是需要CPU,耗費大量時間去做分析和運算,但現在有了GPU的幫助,可以更快完成這些效果的合成速度,讓剪輯工作變得更順暢。
最後當大家把素材剪好、加完效果後,就要到第三階段的導出視頻了,而這次Preimere Pro的大升級,便是針對這一部分引入了額外的硬件加速,因為過去這個環節,其實也是更多采用CPU來進行編碼(encode),由此可見現階段CPU性能提升已經不足以滿足視頻處理的需要了。而GPU則將很多工作一點一點的接了過來,在整個工作流中扮演着越來越重要的角色。
RDNA 2架構的生產力提升
AMD在RDNA 2架構也引入了專門處理光線的RA單元,實時光線追蹤最大的缺點就是對顯卡的計算能力要求極高,傳統的CU單元運行實時光線追蹤的效率非常低,為了讓實時光線追蹤的畫面更為流暢,AMD在RDNA 2架構的每一個CU計算單元裏都放入了一個"Ray Accelerator"光線加速器, 由此可推斷CU計算單元越多,RDNA 2架構顯卡的實時光線追蹤性能就越強大。RX 6900 XT擁有80組CU單元,自然就擁有80個RA光線加速器。
"Ray Accelerator"光線加速器是用於處理光線相交計算的專用硬件。與軟件方案相比,其相交計算性能可提高10倍。AMD還提到實時光線追蹤性能也可以吃到“無限緩存”帶來的增益,並且RA單元同樣可以用在生產力軟件中,讓A卡用户可以使用光線追蹤渲染技術。
在AMD的官方PPT中我們可以看到,官方宣傳RX 6900 XT憑藉着全新的RDNA 2架構,在渲染軟件Blender中相比之前的老生產力A卡旗艦Radeon VⅡ在渲染速度上都有着近2倍的提升,提升幅度也算比較大了。
在視頻渲染軟件達芬奇、PR中,RX 6900 XT相比老旗艦也是進步明顯,在PR的一個項目中甚至性能甚至可以達到老GCN架構的3倍。此外,PR在今年的新版本也加入了A卡乃至APU的AFM硬件加速支持,因此RX 6900 XT現在的生產力性能也是得到了一個明顯的進步。
創意應用測試
目前3D動畫渲染和高分辨率視頻剪輯,在如今市場中擁有最多的用户量,所以我們這裏的測試也是以這兩類創意應用為主。而在顯卡的選擇上,自然就是這次RTX 30系的旗艦顯卡RTX 3090以及AMD的RX 6900 XT了,這兩張卡代表着A/N兩家各自在2020年的顯卡產品最高成果。
至於整個測試平臺,我們搭建了一套AMD Ryzen 9 5800X平臺,搭配的X570主板提供了PCI-E 4.0插槽,5800X可以説是目前在遊戲性能以及創造性能上都兼具的性價比CPU,使用這顆CPU進行顯卡的生產力測試不會產生瓶頸。
3D渲染類Blender
在眾多3D動畫製作軟件中,Blender一直對GPU有着非常好的支持,其作為一個開源軟件,它在近年也是獲得越來越多個人和工作室用户的青睞,這得益於其自身靈活快速的軟件發展,目前最新版Blender在其Cycles渲染器中,已經可以完好低依靠OptiX API,來調用到RTX GPU的硬件加速能力,包括支持光線追蹤和AI降噪功能,並且在這次RTX 30系GPU,Blender Cycles也是最先支持了第二代RT core的動態模糊加速。
動態模糊效果主要是模擬真實相機在拍攝中因快門速度不夠快,而無法捕抓到清晰的背景畫面,這在3D動畫中被用於體現物體在高速移動時的速度感,但是在3D渲染過程中,過去是無法做到在渲染時做動態模糊效果,只能後處理加入,這樣會顯得效果不夠真實,而且極為耗費性能,但在NVIDIA RT光追單元的幫助下,在保證動態模糊精確性的同時,還提高了渲染效率,即提高畫質,又加快了速度,官方稱最高可以實現8倍於前代的速度。
AMD自從擁有了RA單元之後,基於開源的OpenCL,也可以進行光線追蹤渲染了,因此兩者的渲染時間長短就成了目前光追單元實力的體現。
後處理動態模糊光追加速動態模糊
通過對比最終渲染導出來的4K渲染圖可以看到,採用後處理的動態模糊更像是簡單地加上一些模糊濾鏡,各處都很生硬和不自然,但在光追加速處理過的模糊效果就要明顯好很多了,應該產生模糊的地方都做到,而最明顯的就是無人機螺旋槳高速轉動產生的殘影,這更接近真實人眼看到的效果,在這種運動場景有精準的動態模糊,整體呈現出更強烈的衝擊力。
在Blender這個項目測試中,RTX 3090的優勢還是非常明顯的,在三個項目中都領先了RX 6900 XT。最引人注目的當然是光線追蹤動態模糊的成績,RX 6900 XT的渲染時間約為RTX 3090的2.4倍,兩者目前的光追渲染時間還是有較大差距的。這一方面跟兩者的硬件架構光追單元的設計有一定的關係,另一方面RTX 3090採用的OptiX API是經過專屬優化的,AMD採用的OpenCL是一個大眾化的開放型API,在針對性的光追優化上還是差點意思,至少光追渲染這方面兩者是差距明顯的。
視頻剪輯類Adobe Premiere Pro
作為視頻後期工作中最流行的軟件,Premiere Pro很早就支持了CUDA運算的水銀加速,幫助加快視頻剪輯操作,而且Adobe還利用上RTX GPU的AI運算能力,來解決一些重複繁瑣的工作,比如AutoReframe,這大大提高了如今流行的豎屏視頻製作效率,另外從2020版本開始,在視頻最後的導出階段,現在還支持利用NVENC來加速編碼,相比傳統的軟件編碼,大大縮短了導出時間。此外,AMD顯卡也在這次更新中得到了基於OpenCL的AFM硬件加速支持,兩家顯卡終於可以在PR上進行同步PK了。
在Premiere Pro中RTX 3090與RX 6900 XT的差距就沒有剛才的Blender那麼大了,但RTX 3090依舊擁有一定的優勢。與此同時我還做了只用CPU渲染的情況作為對比測試,可以看到兩張顯卡的渲染時間都遠遠小於Ryzen 7 5800X,CPU渲染視頻的效率現在被顯卡拉的太遠了,推薦大家一定要下載最新版本的PR並且開啟硬件加速,從而提高自己的導出速度。
BMD DaVinci Resolve
在視頻調色和剪輯工作中有着重要地位的DaVinci Resolve,向來都是個硬件優化良好的軟件,可以在顯卡的幫助下,提供進行高分辨率視頻的剪輯工作,這款軟件現在在也受到越來越受到歡迎。
而除了性能方面的加速,還在功能方面有利用到硬件的特性,DaVinci Resolve通過NVIDIA RTX系列GPU特有的Tensor Core,來做一些AI功能的加速運算,比如穩定器的補幀、Super Scale、自動適配調色等,不少高級剪輯工作中會用到的操作,提高視頻後期用户的工作效率。
DaVinci Resolve相對來説更能體現顯卡間的性能差別,但在5個DEMO測試中,A卡的渲染時間都是較長的,其中第三個和第五個DEMO中落後的尤為明顯,我曾經懷疑是我自己測試出錯,但經過多次的重啟以及驅動檢查,結果都是如此。後來經過一番尋找,最終在任務管理器中我總算髮現了罪魁禍首。
我們看到在達芬奇軟件渲染的時候,RX 6900 XT負責硬件加速的Compute 1單元的佔用率呈鋸齒形,經過實際觀察,每過一秒鐘這個單元的佔用率就會下降一下,再升上來,如此反覆直至渲染完成,這個應該説是一個很奇怪的事情,很明顯RX 6900 XT因此沒能完全發揮出實力。
這種情況的發生跟目前A卡暫時未推出相應的Studio驅動不無關係,遊戲的驅動跟生產力驅動本來就是針對性軟件不同,一個側重實際遊戲,一個側重生產力軟件,如果一起用的話就可能會出現上面的問題。這方面NVIDIA確實做的不錯,意識到了混用兩個驅動可能會給生產力軟件帶來不便,因此特意推出了RTX Studio驅動以及GeForce Game Ready兩個方向的驅動供玩家選擇。至於GPU温度方面,上圖顯示的應該是AMD的GPU熱點温度,所以不是過熱降頻。
8K遊戲測試
最後我還順便測試了一下8K遊戲的情況,結果不出所料,RTX 3090憑藉着更大的真實帶寬在8K分辨率時的表現會比RX 6900 XT還要強20%-30%,在一些3A大作上更流暢,而像極限競速:地平線這種優化不錯的遊戲,則是有67幀的表現,跨越了60幀的流暢遊玩大關。AMD這邊則是沒能跨越60幀的及格線,因此目前兩者在8K遊戲上還是差距明顯的。
最後再來看一下現在非常火爆的《賽博朋克2077》,現在正好手頭有一個8K顯示器,不玩可惜了。由於現階段的A卡還沒得到《賽博朋克2077》的光追支持,光追的重要性對這款遊戲還特別重要,因此我就只用RTX 3090試驗了一下,以下是幀數表現:
原生8K光追DLSS超級性能
在8K超高分辨率的情況下,即便是RTX 3090幀數表現也不理想,好在這款遊戲支持DLSS2.0技術,我打開專門為8K而生的超級性能模式,發現幀數提升了一大截。雖然在絕對畫質上DLSS超級性能模式還是會比原生畫質稍遜一些,廣告牌有時會出現摩爾紋。但打開DLSS2.0之後,遊戲從8K原生不到10幀的PPT模式,到已經超過35幀可以比較流暢遊玩,這點畫質犧牲我覺得還是可以接受的,畢竟一個可以玩一個不可以玩,原生8K畫質再出色也只能截圖,不能實際遊玩,實際意義就不大。
開啟DLSS2.0之後我們看到在遊戲中顯存的佔用率也從20G下降到了11G左右,顯存壓力大大減小,因此DLSS2.0功能無疑是現階段玩家體驗8K遊戲的最佳利器。
總結
通過上面的測試我們看到目前兩家旗艦顯卡的生產力差距還是比較明顯的,雖然這次AMD的生產力性能進步不小,水平應該是跟20系顯卡相當。但RTX 30系更進一步的創意性能提升,以及NVIDIA Studio、CUDA生態的建立則不是一朝一夕就能突破的,在這些方面NVIDIA還是下了很大功夫的。
NVIDIA的創作生態優勢確實給RTX 3090帶來了巨大的收益,創意類軟件的應用一方面是速度,另一方面是穩定性和專屬工作流的優化。之前在顯卡領域一直是分為遊戲顯卡以及設計專用顯卡兩個部分,現在NVIDIA RTX Studio和CUDA把創意類軟件的生態和遊戲生態融合的非常好,不同需求的用户可以通過切換不同的驅動來滿足遊戲與創造的雙加速。不少生產力軟件也十分依賴於RTX生態以及CUDA生態,而AMD這方面還是有待加強,通用的OpenCL API目前看還不能跟RTX Studio以及CUDA生態抗衡,在穩定性以及性能方面都有明顯的差距。
最後則是遊戲性能,目前RTX 3090其實是一張全面的顯卡,無論你是遊戲發燒友還是內容創造者,這張顯卡都不會讓你失望。AMD的RX 6900 XT現在更大的意義上還是一張傳統的遊戲顯卡,因此現階段的話,RTX 3090在生產力以及高分辨率遊戲體驗方面是優於RX 6900 XT的。