您的 GPU 可能正在浪費時間等待資料
雖然 AI 訓練成本取決於 GPU 運行時間,但儲存 I/O 瓶頸可能會浪費超過 40% 的運算時間。
1. TCP 堆疊的隱藏成本
每次讀取資料時,CPU 都需處理 TCP 封包與上下文切換。這些作業對 AI 運算毫無貢獻,卻暗中消耗高達 99% 的 CPU 資源。
2. 4–6 次無效記憶體複製
傳統 NFS 下,資料在核心與使用者空間間複製 4–6 次才能到達 GPU,每增加 1 微秒延遲都會損失運算能力。
3. GPU 閒置時間造成的實際損失
例如,在 8×H100 叢集下,雲端成本每小時超過 US$24。若 GPU 使用率因等待資料降至 60%,約 US$10 每小時將完全浪費。