mirror of
https://gitee.com/ascend/MindSpeed-LLM.git
synced 2025-12-06 11:28:59 +08:00
5.9 KiB
5.9 KiB
MindSpeed-LLM 预置MoE大模型
认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段,未完成充分的性能测试和验收,在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。
| 模型 | 下载链接 | 脚本位置 | 序列 | 实现 | 集群 | 贡献方 | 认证 |
|---|---|---|---|---|---|---|---|
| Qwen3 | 30B | Qwen3-30B-A3B | 4K | Mcore | 2x8 | 【Ascend】 | 【Pass】 |
| 235B | Qwen3-235B-A22B | 4K | Mcore | 16x16 | 【Ascend】 | 【Test】 | |
| Qwen2 | 57B-A14B | qwen2_moe | 4K | Mcore | 8x8 | 【GTS】 | 【Pass】 |
| Mixtral | 8x7B | mixtral | 32K | Mcore | 8x8 | 【Ascend】 | 【Pass】 |
| 8x22B | 32K | Mcore | 8x8 | 【NAIE】 | 【Pass】 | ||
| 64K | Mcore | 8x8 | 【NAIE】 | 【Test】 | |||
| DeepSeek-V2 | 236B | deepseek2 | 8K | Mcore | 20x8 | 【Ascend】 | 【Pass】 |
| DeepSeek-V2-coder | 236B | deepseek2_coder | 8K | Mcore | 20x8 | 【Ascend】 | 【Test】 |
| DeepSeek-V2-Lite | 16B | deepseek2_lite | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 |
| DeepSeek-V2.5 | 236B | deepseek25 | 8K | Mcore | 20x8 | 【NAIE】 | 【Test】 |
| DeepSeek-V3 | 671B | deepseek3 | 4K | Mcore | 64x8 | 【Ascend】 | 【Pass】 |
| MiniCPM | 8x2B | minicpm | 4K | Mcore | 1x8 | 【NAIE】 | 【Test】 |
| Phi3.5 | MoE-instruct | phi35 | 4K | Mcore | 2x8 | 【GTS】 | 【Test】 |
说明
DeepSeek3模型
版本要求:CANN版本≥8.1.RC1,PTA版本≥7.0.RC1。
MTP说明:master分支是参考Megatron-LM实现,与2.0.0分支实现方案不同,训练loss表现不一致,使能方式如下:
# MTP层数
--mtp-num-layers
# MTP loss系数
--mtp-loss-scaling-factor
社区BUG列表
-
DeepSeek2:使用examples/mcore/deepseek2/pretratin_deepseek2_100b_8k_C_ptd.sh进行八机预训练任务时,需确保首节点有1.2T的host内存,第二节点有1.1T的host内存,以此类推。可通过以下命令进行查询
# 查询host内存,通过free字段确定当前可用host内存 free -h