Files
MindSpeed-LLM/docs/pytorch/features/deterministic_computation.md
jzh 32e9e1b036 !2911 [pytorch][bugfix]update
Merge pull request !2911 from jzh/210a
2025-06-25 11:36:17 +00:00

669 B
Raw Permalink Blame History

确定性配置是使集群在相同拓扑前提下,当输入相同输入情况下,过程动作相同,得到相同输出。

昇腾芯片默认采用了不确定计算加速模型训练有时为了重复实验与对比实验需要确定性的计算结果MindSpeed-LLM配置使能确定性计算的开关如下

  • 启动命令中加入开关
--use-deter-comp
  • 环境变量中加入开关
export HCCL_DETERMINISTIC=True

如果配置 HCCL_LOGIC_SUPERPOD_ID集群通过 ROCE 通讯时,集群拓扑关系发生变化,集合通信也会产生不同行为,通讯算法的逻辑有区别,两者确定性方案不统一。