顯示卡 NVIDIA RTX 5090 / PRO 6000 傳出 Bug , 直接死機得重開才能恢復

soothepain · 昨天 10:55

最近有玩家和企業用戶反映，NVIDIA 最新的 RTX 5090 與 RTX PRO 6000 似乎存在一個重置 Bug。一旦在虛擬化環境中觸發，顯卡就會整個死掉，完全沒有反應，只能靠主機重開機才能恢復。

這個問題最早是 GPU 雲端服務商 CloudRift 公開的。他們在多台搭載 Blackwell 架構的新系統中遇到同樣狀況，甚至還祭出 1,000 美元懸賞，希望有人能找出問題根源或解決方法。

根據 CloudRift 的紀錄，Bug 會在顯卡透過 KVM 和 VFIO 分配給虛擬機後出現。當 VM 關機或重新分配顯卡時，系統會送出標準的 PCIe 功能級重置（FLR）。但 RTX 5090 和 PRO 6000 並沒有乖乖回到正常狀態，反而直接掛掉，系統日誌還會跳出：「not ready 65535ms after FLR; giving up」的錯誤訊息。

這時候顯卡甚至連 lspci 都讀不到，只能靠整台機器斷電重啟才救得回來。AI 新創 Tiny Corp（開發 tinygrad 的團隊）也轉發了這則發現，並直接問了一句：「5090 和 PRO 6000 是不是硬體瑕疵？」

更糟的是，這並非個案。Proxmox 和 Level1Techs 社群裡，也有不少玩家分享類似狀況。有用戶回報，關閉 Windows VM 後，整台主機就卡死，重開系統也救不回來；也有人測到，Linux VM 關閉後 CPU 出現 lock 狀態，5090 無法再初始化，但他舊的 RTX 4080 完全沒這問題。

更換 PCIe 設定（像 ASPM 或 ACS）似乎也幫不上忙。值得注意的是，目前只有 Blackwell 系列中招，舊的 RTX 4090 使用起來都正常。

對於需要 GPU 虛擬化的環境來說，FLR 是相當重要的功能，因為它能確保顯卡在不同 VM 之間安全重置與切換。如果這功能不可靠，那不只是雲端 AI 多租戶環境，連一般玩家的家用實驗室都會受到影響。

截至目前，NVIDIA 還沒有正式回應，也沒有任何已知的解法。

來源

搜尋

顯示卡 NVIDIA RTX 5090 / PRO 6000 傳出 Bug , 直接死機得重開才能恢復

soothepain

full loading