處理器 AMD推出 Instinct MI300 系列提供資料中心 AI 解決方案

soothepain · 12/7/23

戴爾科技集團、HPE、聯想、Meta、微軟、Oracle與美超微等大廠為高效能運算與生成式AI展示AMD硬體

ROCm 6開放軟體產業體系結合新一代硬體與軟體，帶來相較前一代高達8倍的效能提升，為生成式AI挹注領先效能並簡化部署AMD AI解決方案

AMD（NASDAQ: AMD）宣布推出AMD Instinct™ MI300X加速器，為生成式人工智慧（AI）帶來領先業界的記憶體頻寬註1以及為大型語言模型（Large Language Model，LLM）訓練與推論提供領先效能。同時也推出AMD Instinct™ MI300A加速處理單元（APU），結合最新AMD CDNA™ 3架構與“Zen 4” CPU，為高效能運算（HPC）與AI工作負載帶來突破性效能。

AMD總裁Victor Peng表示，AMD Instinct MI300系列加速器以我們的最先進技術打造，帶來領先效能並能夠在大規模雲端與企業部署。透過我們的領先硬體、軟體與開放產業體系方案，雲端供應商、OEM與ODM正在推出技術，助力企業採用和部署AI解決方案。

微軟採用最新AMD Instinct加速器產品組合，近期宣布全新Azure ND MI300x v5虛擬機器（VM）系列，為AI工作負載進行最佳化並由AMD Instinct MI300X加速器挹注效能。此外，位在美國勞倫斯利佛摩國家實驗室（Lawrence Livermore National Laboratory，LLNL）的超級電腦El Capitan採用AMD Instinct MI300A APU，預期成為第二台搭載AMD核心的exascale等級超級電腦，可在完全部署時帶來超越2 exaflops的雙精度效能。Oracle Cloud Infrastructure（OCI）計劃新增基於AMD Instinct MI300X的裸機執行個體（bare metal instance）至其AI高效能加速運算執行個體。基於MI300X的執行個體與超快RDMA網路預計將支援OCI Supercluster。

各大OEM廠商也在AMD Advancing AI活動展示加速運算系統。戴爾科技集團展示採用8個AMD Instinct MI300系列加速器的Dell PowerEdge XE9680伺服器以及為生成式AI推出的全新Dell Validated Design，其搭配基於AMD ROCm的AI框架。HPE近期發表首款超級運算HPE Cray Supercomputing EX255a accelerator blade，搭載AMD Instinct MI300A APU，預期將於2024年稍早開始供貨。聯想宣布其設計支援全新AMD Instinct MI300系列加速器，計畫於2024上半年開始供貨。美超微（Supermicro）宣布其H13世代加速伺服器的全新產品採用第4代AMD EPYC™處理器與AMD Instinct MI300系列加速器。

AMD Instinct MI300X 加速器

AMD Instinct MI300X加速器基於全新AMD CDNA 3架構。相較前一代AMD Instinct MI250X加速器，MI300X為AI與HPC工作負載帶來近40%的運算單元提升註2、高達1.5倍的記憶體容量提升以及高達1.7倍的峰值理論記憶體頻寬提升註3，同時支援FP8與稀疏性（sparsity）等的全新數學格式。

現今的LLM持續增加尺寸與複雜度，需要龐大的記憶體和運算能力。AMD Instinct MI300X加速器配備最優異的192GB HBM3記憶體容量以及每秒5.3TB的峰值記憶體頻寬註2，提供不斷增加且要求嚴苛的AI工作負載所需效能。AMD Instinct平台為領先生成式AI平台，奠基於產業標準OCP設計與8個MI300X加速器，提供領先業界的1.5TB HBM3記憶體容量。AMD Instinct平台的產業標準設計讓OEM合作夥伴可將MI300X加速器設計至現有的AI產品中並簡化部署，以及加速採用基於AMD Instinct加速器的伺服器。

相較NVIDIA H100 HGX，AMD Instinct平台在執行BLOOM 176B等LLM推論時提供高達1.6倍的吞吐量效能提升註4。此外，其為市場上唯一能夠在單個MI300X加速器上執行Llama2等70B參數模型的選擇，可簡化企業級LLM部署並帶來卓越的總擁有成本（TCO）。

AMD Instinct MI300A APU

AMD Instinct MI300A APU為全球首款為HPC與AI打造的資料中心APU，憑藉3D封裝技術與第4代AMD Infinity架構在HPC和AI交匯時提供領先的重要工作負載效能。MI300A APU結合高效能AMD CDNA 3 GPU核心、最新AMD “Zen 4” x86 CPU核心與新一代128GB HBM3記憶體，相較前一代AMD Instinct MI250X，在FP32 HPC與AI工作負載提供高達1.9倍的每瓦效能提升註5。

能源效率對HPC和AI社群至關重要，然而這些工作負載極其依賴資料和資源。AMD Instinct MI300A APU受益於將CPU與GPU核心整合到帶來高效率平台的單一封裝，同時為加速訓練最新的AI模型提供運算效能。AMD正以30x25目標為能源效率開創創新途徑，計劃從2020年至2025年間將用於AI訓練與HPC的伺服器處理器與加速器能源效率提升30倍註6。

APU優勢代表AMD Instinct MI300A APU搭配統一記憶體與快取記憶體資源可為客戶帶來簡易的程式化設計GPU平台、高效能運算、快速的AI訓練以及優異的能源效率，以應對要求最嚴苛的HPC和AI工作負載。

ROCm軟體與產業體系合作夥伴

AMD宣布推出最新AMD ROCm™ 6開放軟體平台，這也體現公司向開源社群貢獻最先進的函式庫之承諾，推動AMD開發開源AI軟體的願景。ROCm 6軟體代表AMD軟體工具重大提升的一步，相較前一代硬體與軟體，其在MI300系列加速器執行Llama 2 text generation時帶來高達8倍的AI加速效能提升註7。此外，ROCm 6為FlashAttention、HIPGraph與vLLM等多個生成式AI全新關鍵功能新增支援。AMD位居獨特優勢，可透過Hugging Face、PyTorch與TensorFlow等最受廣泛使用的開源AI軟體模型、演算法與框架，驅動創新、簡化部署AMD AI解決方案與釋放生成式AI的真正潛力。

AMD也透過收購Nod.AI與Mipsology持續投資軟體能力，同時藉由Lamini、MosaicML等策略產業體系合作夥伴關係，為企業客戶執行LLM，以及憑藉AMD ROCm即可於AMD Instinct加速器執行LLM訓練，且毋須變動程式碼。

註1：MI300-05A：由AMD效能實驗室2023年11月17日進行計算，針對AMD Instinct™ MI300X OAM加速器750W（192 GB HBM3），採用AMD CDNA™ 3 5nm FinFet製程技術，結果為192 GB HBM3記憶體容量和5.325 TFLOPS峰值理論記憶體頻寬效能。MI300X記憶體匯流排介面為8,192，記憶體數據速率為5.2 Gbps，總峰值記憶體頻寬為5.325 TB/s（8,192位元記憶體匯流排介面*5.2 Gbps記憶體數據速率/8）。NVIDIA Hopper H200 (141GB) SXM GPU加速器的最高發布結果為141GB HBM3e記憶體容量和4.8 TB/s GPU記憶體頻寬效能。（hpc-datasheet-sc23-h200-datasheet-3002446.pdf）NVIDIA Hopper H100 (80GB) SXM5 GPU加速器的最高發布結果為80GB HBM3記憶體容量和3.35 TB/s GPU記憶體頻寬效能。（NVIDIA H100 Tensor Core GPU Datasheet）

註2：MI300-15：AMD Instinct™ MI300X（750W）加速器具有304個運算單元（CUs），19,456個串流處理器核心和1,216個矩陣核心。AMD Instinct™ MI250（560W）加速器具有208個運算單元（CUs），13,312個串流處理器核心和832個矩陣核心。AMD Instinct™ MI250X（500W/560W）加速器具有220個運算單元（CUs），14,080個串流處理器核心和880個矩陣核心。

註3：MI300-13：由AMD效能實驗室於2023年11月7日進行計算，針對AMD Instinct™ MI300X OAM加速器750W（192 GB HBM3），採用AMD CDNA™ 3 5nm FinFet製程技術，結果為192 GB HBM3記憶體容量和5.325 TFLOPS峰值理論記憶體頻寬效能。MI300X記憶體匯流排介面為8,192（1024位元x8 die），記憶體數據速率為5.2 Gbps，總峰值記憶體頻寬為5.325 TB/s（8,192位元記憶體匯流排介面*5.2 Gbps記憶體數據速率/8）。AMD Instinct™ MI250（500W）/MI250X（560W）OAM加速器（128 GB HBM2e），採用AMD CDNA™ 2 6nm FinFet製程技術，結果為128 GB HBM3記憶體容量和3.277 TFLOPS峰值理論記憶體頻寬效能。MI250/MI250X記憶體匯流排介面為8,192（4,096位元x2 die），記憶體數據速率為3.20Gbps，總記憶體頻寬為3.277 TB/s（(3.20 Gbps*(4,096位元*2))/8）。

註4：MI300-34：使用DeepSpeed推理進行標誌生成，Bloom-176b模型，輸入序列長度為1948標誌，輸出序列長度為100標誌，批次大小調整為每個系統比較中的最高吞吐量，基於AMD內部測試，使用自定義Docker容器進行每個系統比較，截至2023年11月17日。配置：2P Intel Xeon Platinum 8480C CPU伺服器，搭載8x AMD Instinct™ MI300X 192GB 750W GPU，ROCm™ 6.0預發行版本，Ubuntu 22.04.2。Vs. NVIDIA DGX H100，搭載2x Intel Xeon Platinum 8480CL處理器，8x NVIDIA H100 80GB 700W GPU，CUDA 12.0，Ubuntu 22.04.3。此測試在每個系統上使用了8個GPU。各家伺服器製造商配置各異，故測得結果亦可能不同。效能可能會根據使用最新驅動程式和最佳化方式而有差異。

註5：MI300-23：由AMD效能實驗室於2023年11月16日進行計算，針對AMD Instinct™ MI300X（192GB HBM3 OAM模組）750W加速器，採用AMD CDNA™ 3 5nm|6nm FinFET製程技術，在2,100 MHz峰值增強引擎時脈下，結果為163.43 TFLOPS峰值理論單精度（FP32）效能。AMD Instinct™ MI300A（128GB HBM3 APU）760W加速器，採用AMD CDNA™ 3 5nm|6nm FinFET製程技術，在2,100 MHz峰值增強引擎時脈下，結果為122.573 TFLOPS峰值理論單精度（FP32）效能。AMD Instinct™ MI250X（128GB HBM2e OAM 模組）560W加速器，採用AMD CDNA™ 2 6nm FinFET製程技術，在1,700 MHz峰值增強引擎時脈下，結果為47.9 TFLOPS峰值理論單精度（FP32）效能。

註6：包括AMD高效能CPU和GPU加速器，用於AI訓練和高效能運算，以4-Accelerator、CPU托管配置。目標計算基於標準效能指標（HPC：Linpack DGEMM核心FLOPS，矩陣大小為4k。AI訓練：操作在4k矩陣上的低精度訓練專用浮點數學GEMM核心，如FP16或BF16 FLOPS）測量的效能分數除以代表性加速計算節點的額定功耗，包括CPU主機+記憶體和4個GPU加速器。

註7：MI300-33：使用Llama2-70b聊天生成文本，輸入序列長度為4096，輸出32標誌比較，基於AMD內部測試，使用自定義Docker容器進行每個系統比較，截至2023年11月17日。配置：2P Intel Xeon Platinum CPU伺服器，使用4x AMD Instinct™ MI300X（192GB, 750W）GPU，ROCm® 6.0 預發行版，PyTorch 2.2.0，vLLM for ROCm，Ubuntu® 22.04.2。Vs. 2P AMD EPYC 7763 CPU伺服器，使用4x AMD Instinct™ MI250（128 GB HBM2e, 560W）GPU，ROCm® 5.4.3，PyTorch 2.0.0，HuggingFace Transformers 4.35.0，Ubuntu 22.04.6。每個系統上使用了4個GPU。各家伺服器製造商配置各異，故測得結果亦可能不同。效能可能會根據使用最新驅動程式和最佳化方式而有差異。

搜尋

處理器 AMD推出 Instinct MI300 系列提供資料中心 AI 解決方案

soothepain

full loading

處理器 AMD推出 Instinct MI300 系列 提供資料中心 AI 解決方案

soothepain

full loading

處理器 AMD推出 Instinct MI300 系列提供資料中心 AI 解決方案