GPU がデータの待機で時間を無駄にしているかもしれません
AI トレーニングのコストは GPU の稼働時間で決まりますが、ストレージの I / O ボトルネックによって計算時間の 40% 以上が無駄になることもあります。
1. TCP スタックの隠れたコスト
データを読み込むたびに、CPU は TCP パケット処理やコンテキストスイッチに占有されます。これらは AI 計算には寄与しませんが、CPU リソースの最大 99% を密かに消費します。
2. 4〜6 回の無駄なメモリコピー
従来の NFS では、データが GPU に届くまでにカーネル空間とユーザー空間の間で 4〜6 回コピーされます。1 マイクロ秒の遅延増加でも計算力が失われます。
3. GPU アイドル時間による実際の損失
例えば 8 台の H100 クラスタでは、クラウドコストが 1 時間あたり 24 米ドルを超えます。GPU の稼働率がデータの待機で 60% に低下すると、1 時間あたり約 10 米ドルが完全に無駄になります。