文档修正

2025-12-06 11:29:59 +08:00 · 2025-12-04 11:27:21 +08:00
parent 82f8c9545e
commit 514f58b821
4 changed files with 4 additions and 5 deletions
--- a/docs/model_cards/glm4.md
+++ b/docs/model_cards/glm4.md
@@ -203,7 +203,7 @@ bash scripts/examples/glm4/run_glm4_predict.sh PARALLEL CONFIG_PATH CKPT_PATH TO

 | 参数名         | 含义                        | 取值说明                                                                                        |
 |-------------|---------------------------|---------------------------------------------------------------------------------------------|
-| PARALLEL    | 指定选择推理模式为单卡推理 or 多卡推理。    | (str, 必选) - 单卡推理配置为 `single` ，多卡推理配置为 `parallel` 。                                          |
+| PARALLEL    | 指定选择推理模式为单卡推理或多卡推理。       | (str, 必选) - 单卡推理配置为 `single` ，多卡推理配置为 `parallel` 。                                          |
 | CONFIG_PATH | 模型配置文件路径。                 | (str, 必选) - 如 `/path/to/glm4/predict_glm4_9b_chat.yaml` 。                                   |
 | CKPT_PATH   | 推理时用到的模型权重文件路径。           | (str, 必选) - 单卡为完整权重，双卡为分布式权重。<br>如单卡推理 `/path/to/glm4.ckpt`，多卡推理 `/path/to/glm4_ckpt_dir` 。 |
 | TOKENIZER   | GLM-4 模型的 tokenizer 文件路径。 | (str, 必选) - 如 `/path/to/tokenizer.model` 。                                                  |
--- a/docs/transformer仓Python编程规范.md
+++ b/docs/transformer仓Python编程规范.md
@@ -3,7 +3,6 @@
 本规范以[PEP8](https://www.python.org/dev/peps/pep-0008/)为基础，参考华为Python通用编码规范、安全编程规范，并结合业界共识整理而成，参与MindSpore社区开发需要首先遵循本规范内容（与PEP8冲突部分），其余遵循PEP8规范。

 如果对规则有异议，建议提交 issue 并说明理由，经MindSpore社区运营团队评审接纳后可修改生效。
-a

 ## 适用范围

--- a/research/deepseek3/README.md
+++ b/research/deepseek3/README.md
@@ -2,7 +2,7 @@

 ## 模型描述

-DeepSeek-V3是由DeepSeek（深度求索）推出的一个强大的专家混合（MoE）语言模型，它拥有671B总参数，其中激活参数量为37B。为了实现高效推理和低成本训练，DeepSeek-V3采用了多头潜注意力（MLA）和DeepSeekMoE架构，这在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略，并设定了多token预测训练目标，以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练，接着通过监督微调和强化学习充分优化其能力。综合评估显示，在发布时DeepSeek-V3的性能优于其他开源模型，并可与领先的闭源模型相媲美。尽管性能卓越，DeepSeek-V3 的全部训练成本非常低，且其训练过程也非常稳定。
+DeepSeek-V3是由DeepSeek（深度求索）推出的一个强大的专家混合（MoE）语言模型，它拥有671B总参数，其中激活参数量为37B。为了实现高效推理和低成本训练，DeepSeek-V3采用了多头潜在注意力（MLA）和DeepSeekMoE架构，这在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略，并设定了多token预测训练目标，以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练，接着通过监督微调和强化学习充分优化其能力。综合评估显示，在发布时DeepSeek-V3的性能优于其他开源模型，并可与领先的闭源模型相媲美。尽管性能卓越，DeepSeek-V3 的全部训练成本非常低，且其训练过程也非常稳定。

 ```text
@misc{deepseekai2024deepseekv3technicalreport,
--- a/research/qwen2_5/README.md
+++ b/research/qwen2_5/README.md
@@ -205,7 +205,7 @@ mindspore_ckpt_path:    qkv_concat转换后权重文件保存路径,单卡权重
 1. 当前支持模型已提供推理相关配置文件，请根据实际使用模型更改配置文件。
 2. 运行下面的代码需要在`mindformers/`目录下，或者先将`mindformers/`目录所在路径加入到`PYTHONPATH`环境变量中。

-以``qwen2_5-7b` 8卡微调为例，执行如下命令进行微调。
+以 `qwen2_5-7b` 8卡微调为例，执行如下命令进行微调。

 1. 主要参数配置参考:

@@ -236,7 +236,7 @@ mindspore_ckpt_path:    qkv_concat转换后权重文件保存路径,单卡权重
    tokenizer:
      model_max_length: 32768
      vocab_file: "./path/vocab.json" # 参考qwen2_5-7b官网下载的词表
-      merges_file: "./path/merges.txt" # # 参考qwen2_5-7b官网下载的merge文件
+      merges_file: "./path/merges.txt" # 参考qwen2_5-7b官网下载的merge文件
   #callbacks config
   callbacks:
    - type: CheckpointMonitor