AI 應用 NVIDIA Blackwell 平台強調推論效率,Token 成本較 Hopper 降低 10 倍

soothepain

full loading
已加入
9/17/03
訊息
22,763
互動分數
1,994
點數
113
網站
www.coolaler.com
NVIDIA 近期在官方部落格中表示,新一代 Blackwell 架構在 AI 推論(inference)效率方面取得顯著進展,尤其是在每個 token 成本(tokenomics)上,相較前代 Hopper 平台可降低最高達 10 倍。這項成果被歸因於 NVIDIA 所稱的極致軟硬體協同設計(extreme co-design)策略。

tokenomics-think-smart.jpg


隨著多家業者陸續部署 Blackwell 平台,包括 Baseten、DeepInfra、Fireworks AI 與 Together AI 等推論服務供應商已導入相關系統,用於託管大型開源模型。NVIDIA 指出,這些業者在相同推論負載下,能將每 token 成本壓低至 Hopper 世代的十分之一,同時維持低延遲與穩定輸出。

Cost-of-Each-Token.jpg


Blackwell 架構的一大核心在於針對當前主流的 MoE(Mixture of Experts)模型進行最佳化。以 GB200 NVL72 系統為例,其採用 72 顆晶片組成的大規模配置,並搭配約 30TB 的高速共享記憶體,強化專家模型並行處理能力。透過更精細的 token 批次切分與跨 GPU 分配機制,系統可在大規模推論場景下提高資源利用率,進而降低整體運算成本。

NVIDIA 表示,Blackwell 在硬體與軟體層面的整合優化,是推動效率提升的關鍵。除了硬體架構本身的改進,也包括對推論堆疊(inference stack)與通訊機制的深度調校。部分業者指出,在多代理(multi-agent)與專用 AI 代理應用場景下,成本效率可較 Hopper 世代改善 25% 至 50%。

展望後續產品,NVIDIA 已預告下一代平台 Vera Rubin 將進一步強化基礎設施效率,包含新架構設計與專用機制(例如針對預填階段優化的技術)等。隨著 AI 模型規模與推論需求快速擴張,業界普遍認為,提升硬體效率與降低單位運算成本,將成為未來競爭的關鍵指標之一。
 
推理成本挺重要的 你不說我還不知道原來黑色好的推論成本更低 目前很多軟體工程師都使用月租或是包年的對話式AI工具生成程式碼 如果將來打算自建專精特定程式語言的LLM的話挑選推論用的硬體就很重要了 但是我還是不會考慮NV的"黑色好" 還是5奈米製程擺明了就是想坑爹 都不用看它的菜單是怎麼閹割的了
 
最後編輯: