顯示卡 NVIDIA RTX 5090 / PRO 6000 傳出 Bug , 直接死機得重開才能恢復

soothepain

full loading
已加入
9/17/03
訊息
22,084
互動分數
1,976
點數
113
網站
www.coolaler.com
最近有玩家和企業用戶反映,NVIDIA 最新的 RTX 5090 與 RTX PRO 6000 似乎存在一個重置 Bug。一旦在虛擬化環境中觸發,顯卡就會整個死掉,完全沒有反應,只能靠主機重開機才能恢復。

rtx_5090_3.jpg


這個問題最早是 GPU 雲端服務商 CloudRift 公開的。他們在多台搭載 Blackwell 架構的新系統中遇到同樣狀況,甚至還祭出 1,000 美元懸賞,希望有人能找出問題根源或解決方法。

根據 CloudRift 的紀錄,Bug 會在顯卡透過 KVM 和 VFIO 分配給虛擬機後出現。當 VM 關機或重新分配顯卡時,系統會送出標準的 PCIe 功能級重置(FLR)。但 RTX 5090 和 PRO 6000 並沒有乖乖回到正常狀態,反而直接掛掉,系統日誌還會跳出:「not ready 65535ms after FLR; giving up」的錯誤訊息。

這時候顯卡甚至連 lspci 都讀不到,只能靠整台機器斷電重啟才救得回來。AI 新創 Tiny Corp(開發 tinygrad 的團隊)也轉發了這則發現,並直接問了一句:「5090 和 PRO 6000 是不是硬體瑕疵?」

更糟的是,這並非個案。Proxmox 和 Level1Techs 社群裡,也有不少玩家分享類似狀況。有用戶回報,關閉 Windows VM 後,整台主機就卡死,重開系統也救不回來;也有人測到,Linux VM 關閉後 CPU 出現 lock 狀態,5090 無法再初始化,但他舊的 RTX 4080 完全沒這問題。

更換 PCIe 設定(像 ASPM 或 ACS)似乎也幫不上忙。值得注意的是,目前只有 Blackwell 系列中招,舊的 RTX 4090 使用起來都正常。

對於需要 GPU 虛擬化的環境來說,FLR 是相當重要的功能,因為它能確保顯卡在不同 VM 之間安全重置與切換。如果這功能不可靠,那不只是雲端 AI 多租戶環境,連一般玩家的家用實驗室都會受到影響。

截至目前,NVIDIA 還沒有正式回應,也沒有任何已知的解法。





來源