新訊

NVIDIA 雙倍 CUDA 單元 RTX 30 GPU 架構簡析

NVIDIA 正式發布了新一代 Ampere RTX 30 系列顯卡,在效能上有相當大的躍進,雖然說還未有看到實測,但就官方公布的數據是如此,連 RTX 3070 都可以超越過上一代旗艦的 RTX 2080 Ti,至於為何會有顯著的效能提升 Expreview 進行了簡要的分析。



RTX_30_Series_kn_10.jpg

Turing 架構是 NVIDIA 的初代 RTX 架構,它首次引入了 RT Core,並升級了從 Volta 架構開始引入的 Tensor Core。

RTX_30_Series_kn_1.jpg

它的意義在於將整個 GPU 的處理管線分成多個部分,早前的 GPU 只需要全力渲染畫面即可,而在引入實時光線追踪特效之後,GPU 中的處理核心需要分心去算光線追踪特效,偏偏這部分又非常吃算力,會讓傳統的 GPU 浪費非常多的算力。

RTX_30_Series_kn_2.jpg

於是 NVIDIA 為即時光線追踪引入獨立的硬體處理管線,也就是 RT Core。但在開啟即時光線追踪的情況下,單靠 RT Core 加速仍然沒法達成高幀數的目標,所以 NVIDIA 研發了 DLSS 超級採樣技術,也就是利用機器學習,通過 AI 的方式將低解析度的遊戲圖像即時處理成高解析的圖像輸出。因為降低了實際的渲染解析度,所以大幅減輕了 GPU 的計算壓力,從而達成開啟即時光追下的流暢遊戲。

.

RTX_30_Series_kn_3.jpg

但是,Turing 顯卡的一大問題就是計算規模不夠大,老黃在發布上也很坦誠的說,開了光追的 Turing 顯卡表現和沒開光追的 Pascal 差不太多(從圖上甚至可以看到 GTX 1080 Ti 在非光追情況下的表現要優於光追場景下的 RTX 2080 Super)。

新的 Ampere 遊戲顯卡與 A100 加速卡上那枚使用台積電 N7 製程的 GA100 晶片不同,NVIDIA 選擇和三星合作,定制了基於三星 8nm 製程,稱為 Samsung 8N(N for NVIDIA)。在面積最大的 GA102 晶片中,NVIDIA 塞入了280億個晶體管,這個數字是 TU102 的1.5倍,但仍然比面向計算用途的 GA100 少很多(542億)。

RTX_30_Series_kn_4.jpg

這多出來的1.5倍晶體管主要被用在加倍 FP32 單元上,從 NVIDIA 官網上的對比表我們即可看到這一明顯的區別點。

RTX_30_Series_kn_5.png

以往在 NVIDIA 的 GPU 中,一個 CUDA Core 對應一個 FP32 計算單元,在 Turing GPU 上面,NVIDIA 加入了獨立的整數計算單元,它與傳統 FP32 計算單元的比例是1:1,到了 Ampere 上,因為對算力有非常高的需求,NVIDIA 直接選擇把 FP32 單元的數量翻倍。並且官方並沒有採用一個 CUDA Core 對應兩個 FP32 單元的計數方式,仍然保留了1:1的算法,所以這一代的 CUDA 核心數量之所以暴漲,下表對幾代同級顯卡的 CUDA 核心數量進行了對比:



















































型號 RTX 3090 RTX 2080 Ti GTX 1080 Ti RTX 3080 RTX 2080 GTX 1080 RTX 3070 RTX 2070 GTX 1070
CUDA核心數量 10496 4352 3584 8704 2944 2560 5888 2304 1920
FP32單元數量 10496 4352 3584 8704 2944 2560 5888 2304 1920
INT單元數量 5248 4352 N/A 4352 2944 N/A 2944 2304 N/A


從上表中可以看到 RTX 30 顯卡在計算規模上的暴增,不過這只是它效能增幅來源的一個部分。NVIDIA 還引入了第二代 RT Core 和第三代 Tensor Core。新的 RT Core 在處理光線追踪相關的計算時,可達到初代 RT Core 的1.7x效率,而 GA100 的同款 Tensor Core 則帶來了2.7x的 AI 效能提升。

RTX_30_Series_kn_6.jpg

RTX_30_Series_kn_8.jpg

另外還有搭配了新的記憶體。RTX 3080 和 RTX 3090 都使用了來自於美光的 GDDR6X,在記憶體帶寬上逼近1TB/s的大關。這多個方面的技術添加,也讓 RTX 30 系列顯卡擁有最大世代躍進的效能表現。

RTX_30_Series_kn_7.jpg

Ampere GPU 在能耗比上達成了一個1.9x的進步,在半導體製程提升日益困難的今天,這個進步幅度已經算是不小了。但是從下圖上也可以看到,Ampere 顯卡在功耗上也比 Turing 要提高不少。

RTX_30_Series_kn_9.jpg

來源

翡璃月

榮譽會員
已加入
3/11/08
訊息
2,590
互動分數
14
點數
38
網站
bbs.hsq-rip.org
比較在意的是 如果拿來跑NVENC的話?
 

mightwil

初級會員
已加入
9/29/08
訊息
36
互動分數
0
點數
6
年齡
35
所以4k 144HZ來臨了???
 

Kinny

進階會員
已加入
12/4/14
訊息
296
互動分數
21
點數
18
RTX30上市的真快還好我已經趁這波空檔將RX5700XT脫手
一毛都沒虧到還賺到三套遊戲(雖然根本沒玩...)
RX5700XT還是推不動4K全特效(GTAV)
2K也是有點喘的維持在60張
看來還得繼續等下一代RNDA:cool:
至於N卡太貴完全不考慮囉~
 

dogkoon

進階會員
已加入
10/25/03
訊息
1,559
互動分數
18
點數
38
用三星的製程卻搭美光的記憶體?? 三星的策略不是製程搭記憶體半買半相送的嗎??
是說用了三星製程不知發熱量會不會比較大....
 
▌延伸閱讀