截止目前RTX 4060已經發(fā)布,RTX 40系也終于完成了從60-90級別的布局。而70級產品價格和性能都做到了較好的平衡,是3A游戲玩家的不二之選,今天帶來的評測為——磐鐳RTX 4070 12GD6X 乾坤OC顯卡。
RTX 4070顯卡定位在開啟光追和DLSS的情況下,3A游戲達到2K百幀及以上的水準。它相比RTX 3070 Ti性能提升20%左右,與RTX 3080不分伯仲,并且在光追及DLSS方面要領先RTX 30系顯卡。
磐鐳這張RTX 4070雖然姍姍來遲,但好事多磨,全新的乾坤系列,讓第一次拿到顯卡的我相當震驚,相信也顛覆了廣大網友對磐鐳的印象。下面我們先來看看這款磐鐳RTX 4070 乾坤OC的外觀及設計理念。
1 磐鐳RTX 4070 乾坤OC概覽
首先介紹一下磐鐳RTX 40系顯卡的系列構成。本次評測的乾坤(TAICHI)系列定位中端,在性能與價格之間取平衡點,既有不俗的性能,又在外觀上有一定的創(chuàng)意,適合于絕大多數游戲用戶。在其系列之下還有定位高性價比的鱗甲(ARMOUR)系列,保障標準性能的同時,簡化設計。
而在乾坤(TAICHI)系列之上,更有神秘的旗艦燭龍(FIERY)系列,目前尚未推出,但根據官方介紹,仍有令人驚喜的設計,并且進一步加強了散熱效能,大家可以期待一下。畢竟這張乾坤系列顯卡的設計水準,已經完全超出了大家的預期。
磐鐳RTX 4070 乾坤OC顯卡的包裝正面為產品渲染圖,并且顯卡背景已經很明顯的表達了其像素風的設計理念。
有意思的是,磐鐳RTX 4070 乾坤OC顯卡采用了一次性封裝,儀式感極強。也保證了每名玩家拿到手的都是新卡無拆封過的。
配件中除了常規(guī)的說明書保修卡外,還有一張會員卡和螺絲刀,并且貼心的準備了兩顆機箱擋板螺絲。
磐鐳RTX 4070 乾坤OC整體采用藍白拼色設計,清新淡雅。其實相較官方解釋的像素風格,個人更傾向于它是,馬賽克風格與像素風的合體。
雖然兩種風格感覺大體相似,但像素風更接近電子游戲和傳統(tǒng)8位視頻游戲的視覺風格,經典作品有《超級馬里奧》、《魂斗羅》等。而直至目前,像素風游戲仍然以強游戲性和低配置需求,擁有大批忠實玩家。
馬賽克風格通常更具抽象感和藝術氣息,用于制作數字藝術、拼貼畫等工業(yè)設計領域。
所系細看磐鐳RTX 4070 乾坤OC這張顯卡,其實兩種風格的表達都有,屬于用現(xiàn)代工業(yè)設計,呈現(xiàn)了經典美術風格。
磐鐳RTX 4070 乾坤OC的整卡尺寸為317×130×53mm,重量約為1.2kg。主動散熱采用三個白色9葉閉環(huán)風扇。中間風扇中央為像素風的“雙蛇”logo設計。
磐鐳RTX 4070 乾坤OC顯卡邊緣采用藍色亮片點綴,在不同光影下,能夠透出內部的空間層次。
同時乾坤亦謂天地,顯卡首尾點綴各一方,也相當呼應主題。雖然面積不大,但恰到好處。
從這個側視的角度,能夠看到導流罩的白色像素格并不全都是純磨砂表面,部分格子中仍然有交錯的暗紋。
同時,可以發(fā)現(xiàn)其中一個格子有著類似于“三”的文字,這在兩側風扇的logo中也有體現(xiàn)。其實這個“三”源自于八卦中的乾卦。在整個磐鐳的英文“PELADN”中,又以“E”為變體展示。
雖然看似導流罩只是一些像素格子,但這張卡確實“內有乾坤”!
磐鐳RTX 4070 乾坤OC顯卡的側面帶有白色呼吸燈光設計,為顯卡增添了一份別致的韻律感,讓整體外觀層次感更加豐富。
顯卡邊緣的藍色亮片一直延伸至尾部,猶如盔甲覆于顯卡表面。最右邊的陰刻圖案,根據上面的八卦圖能夠知道為坤卦。天地、首尾呼應,細節(jié)滿滿。
磐鐳RTX 4070 乾坤OC的背板采用一體成型金屬背板,表面上布有無規(guī)律排列的方格絲印,并且尾部有大量鏤空處理。
顯卡內部采用全覆蓋高密度散熱鰭片,內建6熱管,對于一張RTX 4070顯卡來說,規(guī)格足夠。
磐鐳RTX 4070 乾坤OC由于功耗減小,TDP只有200W左右,推薦電源650W,所以采用了單8pin供電。
視頻輸出接口上,采用了HDMI 2.1 + DP 1.4a*3的四接口設計。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
2 NVIDIA GeForce RTX 4070 架構淺析
本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,采用TSMC 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-TFLOPS的著色器數據吞吐量。
本次發(fā)布的RTX 4070共有5888個CUDA核心,提供了29-TFLOPS算力;46個第三代Ada RT Core擁有67 RT-TFLOPS;184個第四代Tensor Core可提供466 Tensor-TFLOPS。
另外在本次的規(guī)格說明上,NVIDIA官方也特別表明了L2 Cache容量以及最終的等效帶寬,這是RTX 40在架構中變化比較大的地方,同時也是玩家對位寬減小有爭議的“罪魁禍首”。
我們以兩張圖來簡單說明L2緩存的作用。
如果把GPU內核比作網店店主,那么L1緩存就是在日常工作的屋子中堆放的可發(fā)貨產品,但由于所有工作都要在這間屋子進行,堆放產品的空間有限;所以大部分產品就需要到L2緩存中,它就好比在工作室隔壁的倉庫,雖然需要走出去,但仍然是很近的路程。
如果這個倉庫還是放不下,那么只能到更遠的顯存中去調取產品。當然如果有爆顯存的情況,那么這位“店主”可能還要打車去更遠的系統(tǒng)內存區(qū)調取數據。
這中間的路程和耗費時間就好比GPU額外的工作量,如果絕大部分數據只存放在L2緩存就可以拿到,那么將極大節(jié)省功耗。并且由于不再需要頻繁調取顯存中的數據,所以顯存位寬適當降低,對于運行效率也是沒有影響的。
在真正的GPU中,內核是所有計算發(fā)生的地方,而這就是L1數據緩存的作用所在。每個SM都有一個超低延遲的L1數據緩存,緊挨其處理內核,使L1成為GPU尋找信息的首選。
然而,由于L1緩存需要離內核非常近,不可能非常大。
如果在L1緩存中找不到內核計算所需的數據,GPU將在L2數據緩存中尋找。這個顯存系統(tǒng)位于GPU芯片上,并通過一個非常高速的橫梁系統(tǒng)連接到所有的GPC(圖形處理集群),每個GPC包括多個SM。如果在L2緩存中找到了信息,那么GPU就挑出這些數據并將其放入內核。
如果在L2緩存中找不到信息(被稱為緩存缺失),那么GPU將通過顯存接口在VRAM中尋找。這在整個GPU存儲子系統(tǒng)中產生了很多額外的工作量,并降低了性能和功耗效率。
其實如果只對比傳統(tǒng)的光柵性能,RTX 4070的進步并沒有很大,但在AI逐漸發(fā)展的今天,需要大量邏輯推理運算,所以可以看到相比30系的Tensor算力,幾乎達到2.7倍的提升。
完整的AD102核心
RTX 4070 Ti使用的AD104核心
RTX 4070使用的AD104核心
本次RTX 4070使用了AD104芯片,采用了4組GPC,其中1組少了1組TPC,并且NVENC單元變?yōu)?個。
增加L2緩存的大小可以提高性能,降低延遲,并提高續(xù)航時長,數據訪問在GPU上即可完成(否則GPU就要頻繁從顯存讀取數據,過分依賴顯存帶寬)。所以,這也是為什么在RTX 40系顯卡中,位寬帶寬普遍偏小的原因。
3 測試平臺簡介
首先介紹一下測試平臺,為了保障磐鐳RTX 4070 乾坤OC的性能發(fā)揮,我們的平臺也進行了全面更新。
下面看一下最新版的GPU-Z信息,RTX 4070采用AD104核心,擁有5888個CUDA,而此前測試的RTX 4070 Ti為7680個CUDA,在同系列顯卡中,CUDA數量其實比較能反應性能強弱,所以簡單算一下RTX 4070的性能大概相當于RTX 4070 Ti的77%。
磐鐳RTX 4070 乾坤OC的Boost頻率為2505MHz,公版RTX 4070的Boost頻率為2475MHz。
采用12GB GDDR6X顯存,位寬為192bit,顯存帶寬達到了504 GB/s,光柵單元和紋理單元為64和184。
4 理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
在針對顯卡DX11性能的3DMARKFS套裝測試中,磐鐳RTX 4070 乾坤OC主要對比上一代RTX 3070 Ti,其中FS提升了26%;FSE提升了20%;FSU提升了9%,綜合來看相比RTX 3070 Ti的性能提升約為18%。對比RTX 4070 Ti,綜合成績相差20%左右。
而在針對DX12環(huán)境下的Time Spy和Time Spy Extreme測試中,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升分別為:TS提升24%;TSE提升17%,綜合下來約為21%。
PortRoyal是3DMARK中專門針對光追性能的測試項,磐鐳RTX 4070 乾坤OC相較RTX 3070 Ti的提升約為28%。
綜合來看,磐鐳RTX 4070 乾坤OC的理論性能相較RTX 3070 Ti的提升約為22%。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持 DirectX 12 Ultimate 并包含 6GB 及以上顯存。
這項測試結合了實時光線追蹤和傳統(tǒng)渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網格著色器、體積照明、粒子和后處理效果。
對比RTX 3070 Ti顯卡,從1080p分辨率到4K提升依次為:28%/21%/26%。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。并且由于RTX 3070 Ti無法開啟,所以采用了發(fā)布不久的RTX 4060 Ti。
5 常規(guī)游戲 性能測試
(在游戲測試中,如有提幀技術,NVIDIA均開啟DLSS質量模式。)
本次測試我們還增加了剛剛發(fā)布的《無畏契約》,作為一款競技網游,對于顯卡的要求并不高。我們的測試選擇英雄釋放技能,中等戰(zhàn)斗場面截取平均幀。
磐鐳RTX 4070 乾坤OC顯卡在1080p分辨率下能達到870幀以上的成績,不過受到CPU瓶頸制約,與2K成績沒有拉開,4K分辨率下,也能穩(wěn)定在370幀左右。
另外《無畏契約》游戲內提供了減少延遲技術,所有分辨率測試均開啟Reflex + Boost選項,可以看到即便在4K分辨率下,延遲也僅有2.6ms左右。
在《極限競速:地平線5》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti提升明顯,在1080p分辨率下提升達到27%;而在2K分辨率下提升為28%,4K分辨率提升為31%。
《光明記憶:無限》的光追測試軟件是獨立于游戲的測試工具,比游戲中用到的光線追蹤技術更多,測試條件為“RTX最高/DLSS質量”。所以測試幀數相對較低,但實際游戲配置相當親民。
磐鐳RTX 4070 乾坤OC相比RTX 3070 Ti在1080p下提升33%;2K下提升26%;4K下提升15%。
在另外一款國產游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質量”下進行。
在《刺客信條:英靈殿》中,磐鐳RTX 4070 乾坤OC顯卡相比RTX 3070 Ti的提升分別為:1080p提升13%;2K提升15%;4K提升20%,綜合提升16%。
在傳統(tǒng)的3A游戲中RTX 4070整體提升并沒有光追游戲來的多,所以看來NVIDIA這些年潛心研究的光追和DLSS還是非常有用的。
最后的測試中本該測一下“跑分軟件”《賽博朋克2077》的,不過最近游戲更新幾次后,崩潰問題愈發(fā)明顯,到現(xiàn)在已經完全無法進游戲。所以我們只能看看早先的截圖,體會一下不同的光影模式。
從上至下依次為超級畫質/光追超級/光追過載。可以看到光追過載相比光追超級更貼近于真實效果。它模擬了真實的光線路徑,其實相比之前的光線追蹤模擬了更多光線在不同表面的反射,完整的計算出了場景的真實光照,避免了上一代光追中出現(xiàn)“死黑”的情況。
這也是NVIDIA致力于打造的下一代光追場景,但是截止目前它對硬件計算的需求太過龐大,即便是旗艦顯卡,也無法在4K分辨率下流暢運行。
6 Stable Diffusion AI繪畫測試
除了游戲之外,AI也是目前大火的領域,尤其以Stable Diffusion為最,現(xiàn)在很多AI生成的圖片完全能夠以假亂真,下面我們也來測試一下RTX 4070在這方面的表現(xiàn)。
Stable Diffusion可以說幾乎沒有門檻,但本地部署的繁瑣程度勸退了很多用戶。上圖為操作界面用戶可根據自己想要生成的圖片細節(jié)豐富關鍵詞。
按照NVIDIA提供的關鍵詞,我們生成了10批,共20張圖片,上面挑選了兩幅細節(jié)比較合理的進行了展示。
RTX 4070運算時間 2m24.79s 約合 7.2秒一張圖
RTX 3070 Ti運算時間2m54.34s 約合 8.7秒一張圖
Stable Diffusion對于顯卡的要求比較高,這就需要顯卡擁有較強的Tensor算力。
另外它對于顯存的要求非常高,如果有條件的話盡量選擇大容量顯存的顯卡。
我們對比了RTX 4070和RTX 3070 Ti在相同設置下的運算時間,兩款顯卡在生成20張圖片的時間差距為30秒,差距還是比較大的。
另外我們也測試了使用CPU,在相同設置下生成圖片,但如圖片所示,保守估計需要3小時30分左右。
并且在使用CPU渲染時經常會提示內存不足,不過我們的測試平臺為最旗艦的i9-13900K,內存為D5 7200MHz 32G(16G*2),可見一款趁手的顯卡對于追趕潮流也是很重要的。
7 AV1編碼測試
本次AV1編碼測試選擇了剪映專業(yè)版,它可以輸出H.264/HEVC/AV1三種編碼格式的視頻。
剪映專業(yè)版目前自帶AV1編碼輸出,在實際測試中,我們導出一段1分鐘左右的視頻。可以看到兩個文件容量相差103MB。
由于AV1編碼特性,生成文件的比特率更低,但視頻清晰度則完全相同。所以如果生成同比特率,同容量的文件,AV1將會更清晰。
我們通過NVIDIA ICAT來進行兩段視頻的畫面對比,圖中左側為H.264編碼,右側為AV1編碼。在100%的細節(jié)對比中,幾乎看不出任何區(qū)別。
8 RTX VSR(RTX Video Super Resolution)測試
目前RTX VSR(RTX Video Super Resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到NVIDIA最新驅動,在NVIDIA控制面板中的【調整視頻圖像設置】可以看到最新的RTX 視頻增強超分辨率。
RTX VSR是 AI 圖像處理的突破,它超越了傳統(tǒng)的邊緣檢測和特征銳化技術,極大地提升直播視頻內容的質量。
開啟RTX VSR不僅需要最新版驅動,還需要使用RTX 40或30系列GPU,并且?guī)缀踹m用于Google Chrome和Microsoft Edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。
開啟后,目前已知的打開YouTube或者B站,都可以享受到RTX VSR效果的加成。
如果不確定,在全屏播放視頻時,可以打開任務管理器,看到GPU負載增加,即為開啟成功。
(點擊放大查看原圖)
我們打開YouTube隨意觀看視頻,在打開RTX VSR后,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更為清晰,并且極大減少了失真現(xiàn)象。
9 溫度及功耗測試
功耗測試中,我們選擇FurMark軟件進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
可以看到磐鐳RTX 4070 乾坤OC這張顯卡對于溫度的控制非常不錯,通過40分鐘左右的拷機測試,溫度一直控制在61℃左右,熱點溫度在74℃左右。
游戲動態(tài)功耗測試
值得一提的是,本次我們在拷機測試中最大板載功耗為200W左右,TDP達到了100%。但在實際游戲測試中,大部分3A游戲均低于額定功耗。
所以在實際的使用過程中,由于不同游戲負載不同,GPU的實際功耗是動態(tài)變化的,類似于FPS隨時間的變化,RTX 40系列很難觸及功耗墻。
磐鐳RTX 4070 乾坤OC 3A游戲平均功耗為187W
RTX 3070 Ti 3A游戲平均功耗為288W
在實際的游戲功耗測試中,我們選擇《光明記憶:無限》自帶benchmark,畫面設置為光追最高、4K分辨率,來強行拉滿兩張顯卡的性能極限,檢測我們實際應用場景的功耗。
可以看到兩款顯卡雖然均為70級別,但磐鐳RTX 4070 乾坤OC平均功耗為187W,而RTX 3070 Ti則是288W,低了100W左右,這的確是一個驚人的成績。
10 壺中日月 方寸乾坤
磐鐳這款RTX 4070 乾坤OC顯卡整體測試下來,給我最大的感覺在于外觀設計上的驚喜,畢竟RTX 4070作為一張5月份發(fā)布的顯卡,性能大家已經知悉。
這張顯卡整體融合了像素風和馬賽克風格,整體看起來清新淡雅,但卻內藏玄機。尤其是卡身設計中隱藏的“乾坤”概念,不止停留在系列名稱上。
性能上,RTX 4070可以在3A游戲中,2K分辨率下達到百幀的成績。至于4K,目前大部分獨立游戲或者網游也都沒有問題。
在整體RTX 40系顯卡中,最有意義的升級在于功耗下降。中端顯卡采用單8pin供電,這在RTX 30系中還挺讓人奢望的。而且同級別產品功耗下降100W,綜合性能提升20%左右,的確稱得上升級迭代。
目前磐鐳RTX 4070 乾坤OC的日常售價為4599元,參與滿減最終到手4499元。相比官方建議的4799低了300元,還是非常實惠的,而且它本身的設計,有興趣的朋友不妨看看。
11 附錄1-NVIDIA Ada Lovelace架構解析
Shader Execution Reordering (SER)著色器執(zhí)行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態(tài)重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執(zhí)行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創(chuàng)建了大量的、發(fā)散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態(tài)重組為更高效的工作負載。根據NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個簡單的例子,當光線第一次從發(fā)射端到碰撞端是非常有規(guī)律的射線,而碰撞到物體后的二次光追,則會出現(xiàn)大量發(fā)散的、無規(guī)律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發(fā)揮出著色器的最大性能。
不過好在這么實用的功能并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發(fā)商集成在游戲中。另外由于它是一個通用的邏輯,后續(xù)也有可能直接集成在Windows的API中,這樣游戲開發(fā)者就無需特意引用,直接調用系統(tǒng)API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構的最終形態(tài)。
Opacity Micro-Map Engines
在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優(yōu)化光線追蹤渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復雜物體,不同的光線都會影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的復雜圖形做簡化,創(chuàng)造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化后,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優(yōu)化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在旗艦型號RTX 4090顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
而在中端的RTX 4070上也達到了驚人的466 Tensor-TFLOPS,相比上一代RTX 3070 Ti,擁有2.7倍左右的提升。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了DLSS 3版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個“神經網絡渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創(chuàng)新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續(xù)幀內的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區(qū)域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。
AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統(tǒng)的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規(guī)定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發(fā)布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見到的AV1優(yōu)勢,在視頻工作的所有環(huán)節(jié),AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經為廣大用戶鋪好了一條完整的生態(tài)鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調的在RTX 4070 Ti及以上型號配置的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關于編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發(fā)現(xiàn)顯卡不支持,才會發(fā)覺它的重要性……
隨著圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經成為不可或缺的幫手。雖然論質量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質量和時間也在不斷地被挑戰(zhàn)和刷新。
12 附錄2-Ada Lovelace是誰?
Ada Lovelace(1815-1852)是英國數學家、計算機程序創(chuàng)始人,建立了循環(huán)和子程序概念,被稱為世界上第一位程序員。
Ada從小對數學有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚后的她對數學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程序員。
而以她名字命名的語言——ada語言,已經成為了美國軍方開發(fā)戰(zhàn)斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan。