最近有玩家和企業用戶反映,NVIDIA 最新的 RTX 5090 與 RTX PRO 6000 似乎存在一個重置 Bug。一旦在虛擬化環境中觸發,顯卡就會整個死掉,完全沒有反應,只能靠主機重開機才能恢復。
這個問題最早是 GPU 雲端服務商 CloudRift 公開的。他們在多台搭載 Blackwell 架構的新系統中遇到同樣狀況,甚至還祭出 1,000 美元懸賞,希望有人能找出問題根源或解決方法。
根據 CloudRift 的紀錄,Bug 會在顯卡透過 KVM 和 VFIO 分配給虛擬機後出現。當 VM 關機或重新分配顯卡時,系統會送出標準的 PCIe 功能級重置(FLR)。但 RTX 5090 和 PRO 6000 並沒有乖乖回到正常狀態,反而直接掛掉,系統日誌還會跳出:「not ready 65535ms after FLR; giving up」的錯誤訊息。
這時候顯卡甚至連 lspci 都讀不到,只能靠整台機器斷電重啟才救得回來。AI 新創 Tiny Corp(開發 tinygrad 的團隊)也轉發了這則發現,並直接問了一句:「5090 和 PRO 6000 是不是硬體瑕疵?」
更糟的是,這並非個案。Proxmox 和 Level1Techs 社群裡,也有不少玩家分享類似狀況。有用戶回報,關閉 Windows VM 後,整台主機就卡死,重開系統也救不回來;也有人測到,Linux VM 關閉後 CPU 出現 lock 狀態,5090 無法再初始化,但他舊的 RTX 4080 完全沒這問題。
更換 PCIe 設定(像 ASPM 或 ACS)似乎也幫不上忙。值得注意的是,目前只有 Blackwell 系列中招,舊的 RTX 4090 使用起來都正常。
對於需要 GPU 虛擬化的環境來說,FLR 是相當重要的功能,因為它能確保顯卡在不同 VM 之間安全重置與切換。如果這功能不可靠,那不只是雲端 AI 多租戶環境,連一般玩家的家用實驗室都會受到影響。
截至目前,NVIDIA 還沒有正式回應,也沒有任何已知的解法。
來源

這個問題最早是 GPU 雲端服務商 CloudRift 公開的。他們在多台搭載 Blackwell 架構的新系統中遇到同樣狀況,甚至還祭出 1,000 美元懸賞,希望有人能找出問題根源或解決方法。
根據 CloudRift 的紀錄,Bug 會在顯卡透過 KVM 和 VFIO 分配給虛擬機後出現。當 VM 關機或重新分配顯卡時,系統會送出標準的 PCIe 功能級重置(FLR)。但 RTX 5090 和 PRO 6000 並沒有乖乖回到正常狀態,反而直接掛掉,系統日誌還會跳出:「not ready 65535ms after FLR; giving up」的錯誤訊息。
這時候顯卡甚至連 lspci 都讀不到,只能靠整台機器斷電重啟才救得回來。AI 新創 Tiny Corp(開發 tinygrad 的團隊)也轉發了這則發現,並直接問了一句:「5090 和 PRO 6000 是不是硬體瑕疵?」
更糟的是,這並非個案。Proxmox 和 Level1Techs 社群裡,也有不少玩家分享類似狀況。有用戶回報,關閉 Windows VM 後,整台主機就卡死,重開系統也救不回來;也有人測到,Linux VM 關閉後 CPU 出現 lock 狀態,5090 無法再初始化,但他舊的 RTX 4080 完全沒這問題。
更換 PCIe 設定(像 ASPM 或 ACS)似乎也幫不上忙。值得注意的是,目前只有 Blackwell 系列中招,舊的 RTX 4090 使用起來都正常。
對於需要 GPU 虛擬化的環境來說,FLR 是相當重要的功能,因為它能確保顯卡在不同 VM 之間安全重置與切換。如果這功能不可靠,那不只是雲端 AI 多租戶環境,連一般玩家的家用實驗室都會受到影響。
截至目前,NVIDIA 還沒有正式回應,也沒有任何已知的解法。
來源