I difetti delle GPU H100 di Nvidia rendono l’addestramento di LLama 3 meno intelligente

28 Lug 2024

Da uno studio sul modello linguistico Llama 3 di Meta che vanta 405 miliardi di parametri o elementi modificabili, si evince che questo è stato addestrato usando un cluster di 16384 GPU H100 (costo intorno ai 25.000$ cadauna), pensate per velocizzare carichi di lavoro exascale, fondamentali per accelerare modelli linguistici di grandi dimensioni (LLM).

L’addestramento ha richiesto 54 giorni e in questa fase il cluster in questione ha riscontrato avarie impreviste con i componenti, con una media di un guasto ogni tre ore. In metà dei guasti evidenziati, il problema era a quanto pare legato alle GPU o alla memoria HBM3 a bordo delle stesse.

Lo riferisce il sito Tom’s Hardware, spiegando che i supercomputer sono entità molto complesse da gestire, tenendo conto di decine di migliaia di processori, centinaia di migliaia di altri chip, centinaia di chilometri di cavi. In un ambiente così complesso, è normale che qualcosa non funzioni anche a distanze di poche ore, e gli sviluppatori devono fare in modo che il sistema resti operativo, a prescindere da degradazioni.

GPU H100 di Nvidia difettose hanno creato problemi all'addestramento di LLama 3 — Il sistema NVIDIA NVLink Switch consente di collegare fino a 256 GPU H100. Immagine di NVIDIA.

La portata e la natura della trasmissione in sincrono con 16384 GPU per l’addestramento, rende un sistema come questo soggetto ai guasti; se questi ultimi sono correttamente mitigati, il guasto di una sola GPU può mandare all’aria l’intero lavoro di addestramento, obbligandolo a ripartire.

Il team Llama 3 a quanto sembra è riuscito a mantenere attivo l’addestramento per il 90% del tempo. Nei 54 giorni del pre-addestramento vi sono state 466 interruzioni, 47 delle quali previste e 419 inaspettate. Le interruzioni programmate erano dovute ad attività di manutenzione automatica, quelle inaspettate sono state indicate come legate principalmente a problematiche hardware. L’inconveniente principale ha riguardato le GPU, “colpevoli” del 58,7% delle interruzioni impreviste. Solo tre di questi incidenti hanno richiesto l’intervento manuale: gli altri sono stati gestiti da automatismi.

Gli articoli che parlano di Nvidia sono disponibili qui, invece per le notizie che parlano di Intelligenza Artificialerimandiamo alla sezione dedicata di macitynet.