mirror of
https://gitee.com/mindspore/mindformers.git
synced 2025-12-06 11:29:59 +08:00
文档修正
This commit is contained in:
@@ -203,7 +203,7 @@ bash scripts/examples/glm4/run_glm4_predict.sh PARALLEL CONFIG_PATH CKPT_PATH TO
|
||||
|
||||
| 参数名 | 含义 | 取值说明 |
|
||||
|-------------|---------------------------|---------------------------------------------------------------------------------------------|
|
||||
| PARALLEL | 指定选择推理模式为单卡推理 or 多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 |
|
||||
| PARALLEL | 指定选择推理模式为单卡推理或多卡推理。 | (str, 必选) - 单卡推理配置为 `single` ,多卡推理配置为 `parallel` 。 |
|
||||
| CONFIG_PATH | 模型配置文件路径。 | (str, 必选) - 如 `/path/to/glm4/predict_glm4_9b_chat.yaml` 。 |
|
||||
| CKPT_PATH | 推理时用到的模型权重文件路径。 | (str, 必选) - 单卡为完整权重,双卡为分布式权重。<br>如单卡推理 `/path/to/glm4.ckpt`,多卡推理 `/path/to/glm4_ckpt_dir` 。 |
|
||||
| TOKENIZER | GLM-4 模型的 tokenizer 文件路径。 | (str, 必选) - 如 `/path/to/tokenizer.model` 。 |
|
||||
|
||||
@@ -3,7 +3,6 @@
|
||||
本规范以[PEP8](https://www.python.org/dev/peps/pep-0008/)为基础,参考华为Python通用编码规范、安全编程规范,并结合业界共识整理而成,参与MindSpore社区开发需要首先遵循本规范内容(与PEP8冲突部分),其余遵循PEP8规范。
|
||||
|
||||
如果对规则有异议,建议提交 issue 并说明理由,经MindSpore社区运营团队评审接纳后可修改生效。
|
||||
a
|
||||
|
||||
## 适用范围
|
||||
|
||||
|
||||
@@ -2,7 +2,7 @@
|
||||
|
||||
## 模型描述
|
||||
|
||||
DeepSeek-V3是由DeepSeek(深度求索)推出的一个强大的专家混合(MoE)语言模型,它拥有671B总参数,其中激活参数量为37B。为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜注意力(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标,以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练,接着通过监督微调和强化学习充分优化其能力。综合评估显示,在发布时DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。
|
||||
DeepSeek-V3是由DeepSeek(深度求索)推出的一个强大的专家混合(MoE)语言模型,它拥有671B总参数,其中激活参数量为37B。为了实现高效推理和低成本训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3 还率先采用了无辅助损失的负载均衡策略,并设定了多token预测训练目标,以提高性能。DeepSeek-V3在14.8万亿个多种类的高质量token上进行预训练,接着通过监督微调和强化学习充分优化其能力。综合评估显示,在发布时DeepSeek-V3的性能优于其他开源模型,并可与领先的闭源模型相媲美。尽管性能卓越,DeepSeek-V3 的全部训练成本非常低,且其训练过程也非常稳定。
|
||||
|
||||
```text
|
||||
@misc{deepseekai2024deepseekv3technicalreport,
|
||||
|
||||
@@ -205,7 +205,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重
|
||||
1. 当前支持模型已提供推理相关配置文件,请根据实际使用模型更改配置文件。
|
||||
2. 运行下面的代码需要在`mindformers/`目录下,或者先将`mindformers/`目录所在路径加入到`PYTHONPATH`环境变量中。
|
||||
|
||||
以``qwen2_5-7b` 8卡微调为例,执行如下命令进行微调。
|
||||
以 `qwen2_5-7b` 8卡微调为例,执行如下命令进行微调。
|
||||
|
||||
1. 主要参数配置参考:
|
||||
|
||||
@@ -236,7 +236,7 @@ mindspore_ckpt_path: qkv_concat转换后权重文件保存路径,单卡权重
|
||||
tokenizer:
|
||||
model_max_length: 32768
|
||||
vocab_file: "./path/vocab.json" # 参考qwen2_5-7b官网下载的词表
|
||||
merges_file: "./path/merges.txt" # # 参考qwen2_5-7b官网下载的merge文件
|
||||
merges_file: "./path/merges.txt" # 参考qwen2_5-7b官网下载的merge文件
|
||||
#callbacks config
|
||||
callbacks:
|
||||
- type: CheckpointMonitor
|
||||
|
||||
Reference in New Issue
Block a user