Vaše GPU může ztrácet čas čekáním na data
Zatímco náklady na AI trénink jsou určeny dobou běhu GPU, úzká místa v I/O úložiště mohou způsobit ztrátu více než 40 % vašeho výpočetního času.
1. Skryté náklady TCP zásobníku
Při každém čtení dat je CPU zaměstnáno zpracováním TCP paketů a přepínáním kontextu. Přestože to nijak nepřispívá k AI výpočtům, tajně to spotřebuje až 99 % zdrojů CPU.
2. 4–6 kol zbytečných kopií paměti
U tradičního NFS jsou data kopírována mezi jádrem a uživatelským prostorem 4–6krát, než dorazí do GPU, a každá 1 mikrosekunda přidané latence znamená ztrátu výpočetního výkonu.
3. Skutečné ztráty způsobené nečinností GPU
Například v clusteru 8×H100 přesahují náklady na cloud 24 USD za hodinu. Pokud využití GPU klesne na 60 % při čekání na data, přibližně 10 USD za hodinu je zcela promrháno.