文档修正

This commit is contained in:
yiyison
2025-12-04 11:27:21 +08:00
parent 82f8c9545e
commit 514f58b821
4 changed files with 4 additions and 5 deletions

View File

@@ -203,7 +203,7 @@ bash scripts/examples/glm4/run_glm4_predict.sh PARALLEL CONFIG_PATH CKPT_PATH TO
| 参数名 | 含义 | 取值说明 |
|-------------|---------------------------|---------------------------------------------------------------------------------------------|
| PARALLEL | 指定选择推理模式为单卡推理 or 多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 |
| PARALLEL | 指定选择推理模式为单卡推理多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 |
| CONFIG_PATH | 模型配置文件路径。 | (str, 必选) - 如 `/path/to/glm4/predict_glm4_9b_chat.yaml` 。 |
| CKPT_PATH | 推理时用到的模型权重文件路径。 | (str, 必选) - 单卡为完整权重,双卡为分布式权重。<br>如单卡推理 `/path/to/glm4.ckpt`,多卡推理 `/path/to/glm4_ckpt_dir` 。 |
| TOKENIZER | GLM-4 模型的 tokenizer 文件路径。 | (str, 必选) - 如 `/path/to/tokenizer.model` 。 |

View File

@@ -3,7 +3,6 @@
本规范以[PEP8](https://www.python.org/dev/peps/pep-0008/)为基础参考华为Python通用编码规范、安全编程规范并结合业界共识整理而成参与MindSpore社区开发需要首先遵循本规范内容与PEP8冲突部分其余遵循PEP8规范。
如果对规则有异议,建议提交 issue 并说明理由经MindSpore社区运营团队评审接纳后可修改生效。
a
## 适用范围

View File

@@ -2,7 +2,7 @@
## 模型描述
DeepSeek-V3是由DeepSeek深度求索推出的一个强大的专家混合MoE语言模型它拥有671B总参数其中激活参数量为37B。为了实现高效推理和低成本训练DeepSeek-V3采用了多头潜注意力MLA和DeepSeekMoE架构这在DeepSeek-V2中得到了充分验证。此外DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略并设定了多token预测训练目标以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练接着通过监督微调和强化学习充分优化其能力。综合评估显示在发布时DeepSeek-V3的性能优于其他开源模型并可与领先的闭源模型相媲美。尽管性能卓越DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。
DeepSeek-V3是由DeepSeek深度求索推出的一个强大的专家混合MoE语言模型它拥有671B总参数其中激活参数量为37B。为了实现高效推理和低成本训练DeepSeek-V3采用了多头潜注意力MLA和DeepSeekMoE架构这在DeepSeek-V2中得到了充分验证。此外DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略并设定了多token预测训练目标以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练接着通过监督微调和强化学习充分优化其能力。综合评估显示在发布时DeepSeek-V3的性能优于其他开源模型并可与领先的闭源模型相媲美。尽管性能卓越DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。
```text
@misc{deepseekai2024deepseekv3technicalreport,

View File

@@ -205,7 +205,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重
1. 当前支持模型已提供推理相关配置文件,请根据实际使用模型更改配置文件。
2. 运行下面的代码需要在`mindformers/`目录下,或者先将`mindformers/`目录所在路径加入到`PYTHONPATH`环境变量中。
以``qwen2_5-7b` 8卡微调为例执行如下命令进行微调。
`qwen2_5-7b` 8卡微调为例执行如下命令进行微调。
1. 主要参数配置参考:
@@ -236,7 +236,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重
tokenizer:
model_max_length: 32768
vocab_file: "./path/vocab.json" # 参考qwen2_5-7b官网下载的词表
merges_file: "./path/merges.txt" # # 参考qwen2_5-7b官网下载的merge文件
merges_file: "./path/merges.txt" # 参考qwen2_5-7b官网下载的merge文件
#callbacks config
callbacks:
- type: CheckpointMonitor