處理器不只 3D V-Cache L3 , AMD 研究堆疊式 L2 快取延遲表現可望優於傳統設計

soothepain · 1/15/26

根據 AMD 最新發表的一篇研究論文，該公司正探索在未來處理器中導入「堆疊式 L2 快取」的可能性，其延遲表現可達到與傳統平面式設計相同，甚至更低的水準。

AMD 近日公開一篇名為《Balanced Latency Stacked Cache》的研究文件，並已提交專利申請（專利號：US20260003794A1）。論文中揭露了一種「延遲平衡的堆疊式快取」設計概念，其堆疊快取系統包含第一顆快取晶粒，以及至少一顆以上、以垂直方式堆疊的第二快取晶粒。

目前 AMD 已在產品中廣泛採用 3D V-Cache 技術，透過額外堆疊一層 L3 快取，提升處理器效能。第一代 3D V-Cache 將快取堆疊於 Zen 計算晶粒之上，而第二代則改為堆疊於計算晶粒下方；兩者本質上都是利用垂直堆疊的快取架構。

這項技術已從消費級的 Ryzen 系列，一路延伸至資料中心等級的 EPYC 處理器。如今，AMD 在持續發展 L3 3D V-Cache 的同時，也開始探索將「L2 快取堆疊化」的可能性，專利內容顯示，L2 快取堆疊將是下一步研究方向。

堆疊式 L2 快取設計細節

在專利示意中，AMD 描述了一種基礎晶粒（Base Die），其上連接計算晶粒與快取晶粒，再於其上進一步堆疊另一組計算與快取晶粒。該範例中的 L2 快取模組由四個 512 KB 區塊組成，合計 2 MB L2 快取，並搭配 CCC（Cache Control Circuitry，快取控制電路）。依照設計需求，該 L2 快取結構可擴充至最高 4 MB。

此堆疊方式延續 3D V-Cache 的核心概念，透過矽穿孔（Silicon Vias）將 L2／L3 快取堆疊與基礎晶粒及計算單元垂直連接，矽穿孔配置於堆疊快取系統的中央位置，由 CCC 負責控制資料的輸入與輸出。

延遲不升反降，甚至優於平面式設計

論文中以 1 MB 與 2 MB 的平面式 L2 快取作為比較基準。傳統平面式 1 MB L2M 快取的典型延遲約為 14 個時脈週期，而採用堆疊設計的 1 MB L2M 快取，延遲則可降低至 12 個時脈週期。

這代表堆疊式 L2 快取不僅能提供更高的容量，甚至在延遲表現上，也可達到與平面式設計相同，或更佳的水準。

中央佈線設計，帶來延遲與功耗優勢

AMD 指出，透過將連接用的矽穿孔集中設置於堆疊快取系統的中央，可在存取堆疊快取時降低回應延遲，並同時達到節能效果。與傳統平面式快取需額外佈線（亦稱為管線階段）將資料從 I/O 傳送至較遠區域不同，該設計避免了額外的佈線階段。

由於資料進出距離縮短，堆疊快取的兩側能達成延遲平衡（或相同延遲）。相較於平面式 1 MB L2M 快取的 14 個週期延遲，堆疊設計可降至 12 個週期，讓更大容量的快取仍能維持甚至優於傳統的延遲表現。

此外，由於存取週期縮短，快取單元啟用時間減少，也能更快從運作狀態切換至閒置狀態，進一步降低功耗。加上佈線更短、電容更低、訊號負載減少，整體發熱量也隨之下降。

未來是否導入產品，仍待觀察

除了延遲優勢，AMD 也在論文中明確指出，堆疊式 L2 快取可帶來顯著的功耗節省。不過，距離實際在晶片上看到這類設計，可能還需要一段時間。

來源

laudmankimo · 1/15/26

什麼時候用到CPU跟GPU身上? 你跟我說了上面這些專利我也不懂懂了也沒用都你的專利了

搜尋

處理器不只 3D V-Cache L3 , AMD 研究堆疊式 L2 快取延遲表現可望優於傳統設計

soothepain

full loading

堆疊式 L2 快取設計細節

延遲不升反降，甚至優於平面式設計

中央佈線設計，帶來延遲與功耗優勢

未來是否導入產品，仍待觀察

laudmankimo

榮譽會員

處理器 不只 3D V-Cache L3 , AMD 研究堆疊式 L2 快取 延遲表現可望優於傳統設計

soothepain

full loading

堆疊式 L2 快取設計細節​

延遲不升反降，甚至優於平面式設計​

中央佈線設計，帶來延遲與功耗優勢​

未來是否導入產品，仍待觀察​

laudmankimo

榮譽會員

處理器不只 3D V-Cache L3 , AMD 研究堆疊式 L2 快取延遲表現可望優於傳統設計

堆疊式 L2 快取設計細節

延遲不升反降，甚至優於平面式設計

中央佈線設計，帶來延遲與功耗優勢

未來是否導入產品，仍待觀察