NVIDIA 在資料中心市場的野心,顯然早已不再滿足於只當一個賣 GPU 和加速卡的龍斷巨頭,而是打算把觸手直接伸進對手傳統的 x86 CPU 腹地。科技媒體 Phoronix 近日對 NVIDIA 最新一代的 Vera 處理器進行了獨家首發測試。這款採用 Arm 架構的客製化資料中心 CPU 在初步跑分中展現了極強的侵略性,在程式碼編譯、資料庫效能等特定工作負載下,直接擊敗了 AMD 與 Intel 當前最強的旗艦級伺服器處理器。
這顆晶片之所以能在資料中心掀起波瀾,主要得益於 NVIDIA 在客製化架構與高頻寬記憶體上的激進堆料。Vera 搭載了 88 個客製化的 Armv9.2 Olympus 核心,並透過物理資源分割技術提供了 176 個執行緒。這款客製化核心最特殊的地方在於原生支援 FP8 資料格式處理,並導入了 6x128-bit SVE2(可伸縮向量擴展)實現,讓部分 AI 工作負載可以直接在 CPU 端進行高速運算,而不需要動用到 GPU。
在架構設計上,相較於 AMD EPYC 長期採用的 Chiplet(小晶片)多晶片拼接架構,Vera 採用了完整的單一晶片設計。其內部透過第二代可擴展一致性網格架構互連,提供了高達 3.4 TB/s 的對分頻寬,徹底消除了跨晶片拼接所帶來的內部延遲問題。與此同時,Vera 放棄了傳統的插槽式 DDR5 記憶體,全面轉向 SOCAMM2 封裝格式的 LPDDR5X 記憶體,這讓它的記憶體頻寬直接飆升至 1.2 TB/s,最大容量可擴充至 1.5 TB。
在 Phoronix 的實際測試中,對比對象包含了 Intel 的單、雙路 Xeon Granite Rapids 6980P,以及 AMD EPYC Turin 與 Turin Dense 家族的頂級型號,同時也納入了 NVIDIA 第一代採用 Arm Neoverse V2 核心的 Grace 處理器。由於該晶片尚未正式發表,NVIDIA 目前僅允許運行特定的軟體測試,包括程式碼編譯、Stream 記憶體效能、影片編碼、Python/Java 運行效率以及資料庫效能。
在所有測試項目的幾何平均值中,NVIDIA Vera 成功登頂,其整體效能比 AMD 最先進的 Turin 設計高出近 11%,更是比 Intel 最強的單路 Xeon 旗艦高出了 55.3%。甚至在對比雙路 x86 配置時,Vera 依舊在特定項目中勝出,這反映出傳統多路伺服器架構在部分工作負載上存在著跨座擴展效率遞減的硬傷。在能耗方面,Vera 晶片整體的 TDP 為 450W,而內建的 768GB 記憶體池功耗則為 50W。
隨著這款 Arm 頂級黑馬的加入,全球總量預估達 2000 億美元的資料中心 CPU 潛在市場正在迎來洗牌。業界預測 NVIDIA 光是靠著 Vera 與 Grace 這兩款獨立 CPU 產品線,就能在市場上斬獲約 200 億美元的營收。目前 NVIDIA 已經與全球所有主流的超大規模雲端服務商達成合作,開始整櫃供應 Vera CPU 伺服器機架,供這些基礎設施供應商部署內部業務或對外提供第三方雲端算力。這套以網格架構與高頻寬記憶體降維打擊的策略,高機率將推動 NVIDIA 迅速轉變為全球規模最大的 CPU 製造商之一。
來源
這顆晶片之所以能在資料中心掀起波瀾,主要得益於 NVIDIA 在客製化架構與高頻寬記憶體上的激進堆料。Vera 搭載了 88 個客製化的 Armv9.2 Olympus 核心,並透過物理資源分割技術提供了 176 個執行緒。這款客製化核心最特殊的地方在於原生支援 FP8 資料格式處理,並導入了 6x128-bit SVE2(可伸縮向量擴展)實現,讓部分 AI 工作負載可以直接在 CPU 端進行高速運算,而不需要動用到 GPU。
在架構設計上,相較於 AMD EPYC 長期採用的 Chiplet(小晶片)多晶片拼接架構,Vera 採用了完整的單一晶片設計。其內部透過第二代可擴展一致性網格架構互連,提供了高達 3.4 TB/s 的對分頻寬,徹底消除了跨晶片拼接所帶來的內部延遲問題。與此同時,Vera 放棄了傳統的插槽式 DDR5 記憶體,全面轉向 SOCAMM2 封裝格式的 LPDDR5X 記憶體,這讓它的記憶體頻寬直接飆升至 1.2 TB/s,最大容量可擴充至 1.5 TB。
在 Phoronix 的實際測試中,對比對象包含了 Intel 的單、雙路 Xeon Granite Rapids 6980P,以及 AMD EPYC Turin 與 Turin Dense 家族的頂級型號,同時也納入了 NVIDIA 第一代採用 Arm Neoverse V2 核心的 Grace 處理器。由於該晶片尚未正式發表,NVIDIA 目前僅允許運行特定的軟體測試,包括程式碼編譯、Stream 記憶體效能、影片編碼、Python/Java 運行效率以及資料庫效能。
在所有測試項目的幾何平均值中,NVIDIA Vera 成功登頂,其整體效能比 AMD 最先進的 Turin 設計高出近 11%,更是比 Intel 最強的單路 Xeon 旗艦高出了 55.3%。甚至在對比雙路 x86 配置時,Vera 依舊在特定項目中勝出,這反映出傳統多路伺服器架構在部分工作負載上存在著跨座擴展效率遞減的硬傷。在能耗方面,Vera 晶片整體的 TDP 為 450W,而內建的 768GB 記憶體池功耗則為 50W。
隨著這款 Arm 頂級黑馬的加入,全球總量預估達 2000 億美元的資料中心 CPU 潛在市場正在迎來洗牌。業界預測 NVIDIA 光是靠著 Vera 與 Grace 這兩款獨立 CPU 產品線,就能在市場上斬獲約 200 億美元的營收。目前 NVIDIA 已經與全球所有主流的超大規模雲端服務商達成合作,開始整櫃供應 Vera CPU 伺服器機架,供這些基礎設施供應商部署內部業務或對外提供第三方雲端算力。這套以網格架構與高頻寬記憶體降維打擊的策略,高機率將推動 NVIDIA 迅速轉變為全球規模最大的 CPU 製造商之一。
來源
