mirror of
https://gitee.com/ascend/MindSpeed-LLM.git
synced 2025-12-06 11:28:59 +08:00
669 B
669 B
确定性配置是使集群在相同拓扑前提下,当输入相同输入情况下,过程动作相同,得到相同输出。
昇腾芯片默认采用了不确定计算加速模型训练,有时为了重复实验与对比实验需要确定性的计算结果,MindSpeed-LLM配置使能确定性计算的开关如下:
- 启动命令中加入开关
--use-deter-comp
- 环境变量中加入开关
export HCCL_DETERMINISTIC=True
如果配置 HCCL_LOGIC_SUPERPOD_ID,集群通过 ROCE 通讯时,集群拓扑关系发生变化,集合通信也会产生不同行为,通讯算法的逻辑有区别,两者确定性方案不统一。