diff --git a/docs/model_cards/glm4.md b/docs/model_cards/glm4.md index 794cf3a48..6edff0c9c 100644 --- a/docs/model_cards/glm4.md +++ b/docs/model_cards/glm4.md @@ -203,7 +203,7 @@ bash scripts/examples/glm4/run_glm4_predict.sh PARALLEL CONFIG_PATH CKPT_PATH TO | 参数名 | 含义 | 取值说明 | |-------------|---------------------------|---------------------------------------------------------------------------------------------| -| PARALLEL | 指定选择推理模式为单卡推理 or 多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 | +| PARALLEL | 指定选择推理模式为单卡推理或多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 | | CONFIG_PATH | 模型配置文件路径。 | (str, 必选) - 如 `/path/to/glm4/predict_glm4_9b_chat.yaml` 。 | | CKPT_PATH | 推理时用到的模型权重文件路径。 | (str, 必选) - 单卡为完整权重,双卡为分布式权重。
如单卡推理 `/path/to/glm4.ckpt`,多卡推理 `/path/to/glm4_ckpt_dir` 。 | | TOKENIZER | GLM-4 模型的 tokenizer 文件路径。 | (str, 必选) - 如 `/path/to/tokenizer.model` 。 | diff --git a/docs/transformer仓Python编程规范.md b/docs/transformer仓Python编程规范.md index 9a2bd073d..439b06532 100644 --- a/docs/transformer仓Python编程规范.md +++ b/docs/transformer仓Python编程规范.md @@ -3,7 +3,6 @@ 本规范以[PEP8](https://www.python.org/dev/peps/pep-0008/)为基础,参考华为Python通用编码规范、安全编程规范,并结合业界共识整理而成,参与MindSpore社区开发需要首先遵循本规范内容(与PEP8冲突部分),其余遵循PEP8规范。 如果对规则有异议,建议提交 issue 并说明理由,经MindSpore社区运营团队评审接纳后可修改生效。 -a ## 适用范围 diff --git a/research/deepseek3/README.md b/research/deepseek3/README.md index 2de0b64b0..4f96926bd 100644 --- a/research/deepseek3/README.md +++ b/research/deepseek3/README.md @@ -2,7 +2,7 @@ ## 模型描述 -DeepSeek-V3是由DeepSeek(深度求索)推出的一个强大的专家混合(MoE)语言模型,它拥有671B总参数,其中激活参数量为37B。为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜注意力(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标,以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练,接着通过监督微调和强化学习充分优化其能力。综合评估显示,在发布时DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。 +DeepSeek-V3是由DeepSeek(深度求索)推出的一个强大的专家混合(MoE)语言模型,它拥有671B总参数,其中激活参数量为37B。为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标,以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练,接着通过监督微调和强化学习充分优化其能力。综合评估显示,在发布时DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。 ```text @misc{deepseekai2024deepseekv3technicalreport, diff --git a/research/qwen2_5/README.md b/research/qwen2_5/README.md index d4fd10add..2ec1238db 100644 --- a/research/qwen2_5/README.md +++ b/research/qwen2_5/README.md @@ -205,7 +205,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重 1. 当前支持模型已提供推理相关配置文件,请根据实际使用模型更改配置文件。 2. 运行下面的代码需要在`mindformers/`目录下,或者先将`mindformers/`目录所在路径加入到`PYTHONPATH`环境变量中。 -以``qwen2_5-7b` 8卡微调为例,执行如下命令进行微调。 +以 `qwen2_5-7b` 8卡微调为例,执行如下命令进行微调。 1. 主要参数配置参考: @@ -236,7 +236,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重 tokenizer: model_max_length: 32768 vocab_file: "./path/vocab.json" # 参考qwen2_5-7b官网下载的词表 - merges_file: "./path/merges.txt" # # 参考qwen2_5-7b官网下载的merge文件 + merges_file: "./path/merges.txt" # 参考qwen2_5-7b官网下载的merge文件 #callbacks config callbacks: - type: CheckpointMonitor