由于系统规模庞大,任务同步程度高,单一显卡故障就可能导致整个训练任务中断,需要重新启动。尽管如此,Meta 团队仍然保持了 90% 以上的有效训练时间。
IT之家注意到,在为期 54 天的预训练期间,共发生 466 次工作中断,其中 47 次为计划中断,419 次为意外中断。计划中断由自动化维护引起,而意外中断主要由硬件问题引起。GPU 问题是故障的主要原因,占意外中断的 58.7%。其中只有三起事件需要大量人工干预,其余均由自动化管理。
在 419 次意外停机中,148 次(30.1%)是由各种 GPU 故障(包括故障)引起的,而 72 次(17.2%)是由 GPU 的 HBM3 内存故障引起的。有趣的是,54 天内仅发生过两次 CPU 故障。41.3% 的意外停机是由多种因素引起的,包括软件错误、网线和网络适配器。
为了提高效率,Meta 团队开发了一系列工具和优化策略,包括缩短任务启动和检查点时间、使用 NCCL 飞行记录器诊断性能问题、识别滞后的显卡等。此外,Meta 还关注环境因素的影响,比如午间温度波动对 GPU 性能的轻微影响,以及大量 GPU 同时运行对数据中心电网造成的巨大压力。
但随着AI模型参数数量的不断增加,所需的计算资源也随之扩大,以xAI计划中的10万块H100显卡集群为例,故障率可能呈指数级增长,给未来的AI训练带来更大的挑战。
本站简单学堂,主要教新手怎么在网上开店,分享网店运营知识,全力为学员打造一个电商学习的综合平台,欢迎您的关注。
还没有评论,来说两句吧...