Files
MindSpeed-LLM/docs/pytorch/models/moe_model.md
LeiZhenzhen 0daef54c2e !3083 [pytorch][md]update release info
Merge pull request !3083 from LeiZhenzhen/2.1.0
2025-08-01 09:31:19 +00:00

5.9 KiB
Raw Permalink Blame History

MindSpeed-LLM 预置MoE大模型

认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段,未完成充分的性能测试和验收,在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues

模型 下载链接 脚本位置 序列 实现 集群 贡献方 认证
Qwen3 30B Qwen3-30B-A3B 4K Mcore 2x8 【Ascend】 【Pass】
235B Qwen3-235B-A22B 4K Mcore 16x16 【Ascend】 【Test】
Qwen2 57B-A14B qwen2_moe 4K Mcore 8x8 【GTS】 【Pass】
Mixtral 8x7B mixtral 32K Mcore 8x8 【Ascend】 【Pass】
8x22B 32K Mcore 8x8 【NAIE】 【Pass】
64K Mcore 8x8 【NAIE】 【Test】
DeepSeek-V2 236B deepseek2 8K Mcore 20x8 【Ascend】 【Pass】
DeepSeek-V2-coder 236B deepseek2_coder 8K Mcore 20x8 【Ascend】 【Test】
DeepSeek-V2-Lite 16B deepseek2_lite 8K Mcore 1x8 【Ascend】 【Pass】
DeepSeek-V2.5 236B deepseek25 8K Mcore 20x8 【NAIE】 【Test】
DeepSeek-V3 671B deepseek3 4K Mcore 64x8 【Ascend】 【Pass】
MiniCPM 8x2B minicpm 4K Mcore 1x8 【NAIE】 【Test】
Phi3.5 MoE-instruct phi35 4K Mcore 2x8 【GTS】 【Test】

说明

DeepSeek3模型

版本要求CANN版本≥8.1.RC1PTA版本≥7.0.RC1。

MTP说明master分支是参考Megatron-LM实现与2.0.0分支实现方案不同训练loss表现不一致使能方式如下

# MTP层数
--mtp-num-layers
# MTP loss系数
--mtp-loss-scaling-factor

社区BUG列表

  1. DeepSeek2使用examples/mcore/deepseek2/pretratin_deepseek2_100b_8k_C_ptd.sh进行八机预训练任务时需确保首节点有1.2T的host内存第二节点有1.1T的host内存以此类推。可通过以下命令进行查询

    # 查询host内存通过free字段确定当前可用host内存
    free -h