MindSpeed-LLM/docs/pytorch/models/moe_model.md at 2.1.0

mirror of https://gitee.com/ascend/MindSpeed-LLM.git synced 2025-12-06 11:28:59 +08:00

Files

LeiZhenzhen 0daef54c2e !3083 [pytorch][md]update release info

Merge pull request !3083 from LeiZhenzhen/2.1.0

2025-08-01 09:31:19 +00:00

MindSpeed-LLM 预置MoE大模型

认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段，未完成充分的性能测试和验收，在实际使用中可能存在未被发现的问题，待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。

版本要求：CANN版本≥8.1.RC1，PTA版本≥7.0.RC1。

MTP说明：master分支是参考Megatron-LM实现，与2.0.0分支实现方案不同，训练loss表现不一致，使能方式如下：

# MTP层数
--mtp-num-layers
# MTP loss系数
--mtp-loss-scaling-factor

DeepSeek2：使用examples/mcore/deepseek2/pretratin_deepseek2_100b_8k_C_ptd.sh进行八机预训练任务时，需确保首节点有1.2T的host内存，第二节点有1.1T的host内存，以此类推。可通过以下命令进行查询
```
# 查询host内存，通过free字段确定当前可用host内存
free -h
```