mirror of
https://gitee.com/mindspore/mindformers.git
synced 2025-12-06 11:29:59 +08:00
fix communication matrix and all 0 ip ques
This commit is contained in:
@@ -73,81 +73,62 @@ mindformers 通信矩阵
|
||||
|
||||
| 序号 | 代码仓 | 功能 | 源设备 | 源IP | 源端口 | 目的设备 | 目的IP | 目的端口<br/>(侦听) | 协议 | 端口说明 | 端口配置 | 侦听端口是否可更改 | 认证方式 | 加密方式 | 所属平面 | 版本 | 特殊场景 | 备注 |
|
||||
|:----|:------------|:-----------|:------------------|:---------------------|:------|:-------------------|:---------------------|:--------------|:-----------|:-------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------|:-----|:-----|:-------|:-----------------------|:-----|:---|
|
||||
| 1 | mindformers | 下载权重 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | | 用户所在服务器 | 用户所在服务器的ip | 443 | HTTPS | 下载模型权重 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 业务面 | 所有版本 | 无 | |
|
||||
| 2 | mindformers | 分布式训练推理 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 由用户配置 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | | TCP | 分布式启动时,作为主节点训练 | bash scripts/msrun_launcher.sh "run_mindformer.py \<br/> --config {CONFIG_PATH} \<br/> --run_mode {train/finetune/eval/predict}" \<br/> 8 4 主节点ip 端口号 0 output/msrun_log False 300 | 是 | 无 | 无 | 不涉及 | 所有版本 | 无 | |
|
||||
| 3 | mindformers | 分布式训练推理 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 由用户配置 | TCP | 分布式启动时,作为从节点通信 | bash scripts/msrun_launcher.sh "run_mindformer.py \<br/> --config {CONFIG_PATH} \<br/> --run_mode {train/finetune/eval/predict}" \<br/> 8 4 主节点ip 端口号 1 output/msrun_log False 300 | 是 | 无 | 无 | 不涉及 | 所有版本 | 无 | |
|
||||
| 4 | mindformers | ModelArts | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 动态端口1024~65535 | 用户所在服务器 | 用户所在服务器的ip | 443 | HTTPS | 443是与ModelArts相关操作的端口 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 所有版本 | 无 | |
|
||||
| 5 | MindInsight | Web可视化服务端口 | 用户通过http访问 | 用户IP | | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | Http | 接收用户浏览器发送的web请求,返回用户训练的性能精度数据进行可视化展示 | mindinsight start --port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
| 1 | mindformers | 分布式训练推理 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 由用户配置 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | | TCP | 分布式启动时,作为主节点训练 | bash scripts/msrun_launcher.sh "run_mindformer.py \<br/> --config {CONFIG_PATH} \<br/> --run_mode {train/finetune/eval/predict}" \<br/> 8 4 主节点ip 端口号 0 output/msrun_log False 300 | 是 | 无 | 无 | 不涉及 | 所有版本 | 无 | |
|
||||
| 2 | mindformers | 分布式训练推理 | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 由用户配置 | TCP | 分布式启动时,作为从节点通信 | bash scripts/msrun_launcher.sh "run_mindformer.py \<br/> --config {CONFIG_PATH} \<br/> --run_mode {train/finetune/eval/predict}" \<br/> 8 4 主节点ip 端口号 1 output/msrun_log False 300 | 是 | 无 | 无 | 不涉及 | 所有版本 | 无 | |
|
||||
| 3 | mindformers | ModelArts | 运行mindspore进程的服务器 | 运行mindspore进程的服务器的ip | 动态端口1024~65535 | 用户所在服务器 | 用户所在服务器的ip | 443 | HTTPS | 443是与ModelArts相关操作的端口 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 不涉及 | 所有版本 | 无 | |
|
||||
| 4 | MindInsight | Web可视化服务端口 | 用户通过http访问 | 用户IP | | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | Http | 接收用户浏览器发送的web请求,返回用户训练的性能精度数据进行可视化展示 | mindinsight start --port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
|
||||
除上述外,mindformers不涉及端口开放、侦听等相关行为,相关端口行为由用户在模型脚本调用原生接口,为MindSpore通信配置
|
||||
|
||||
MindSpore通信矩阵
|
||||
|
||||
| 序号 | 代码仓 | 功能 | 源设备 | 源IP | 源端口 | 目的设备 | 目的IP | 目的端口<br/>(侦听) | 协议 | 端口说明 | 端口配置 | 侦听端口是否可更改 | 认证方式 | 加密方式 | 所属平面 | 版本 | 特殊场景 | 备注 |
|
||||
|:---|:--------------------------------|:-------------------------|:--------------------------------|:-----------------------------------------------------------------------------------|:-----------------|:--------------------------|:----------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------|:-----------|:--------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------|:----------|:-------|:-------------------|:-----------|:------------------------------------------------|:-------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
||||
| 1 | MindSpore | 动态组网 | Worker所在服务器 | worker所在服务器的ip | 动态端口1024~65535 | Scheduler | Scheduler所在机器的IP地址 | 用户配置的 MS_SCHED_PORT | TCP | Scheduler进程提供端口,用于通信层处理Worke节点发送的组网请求。 | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 是 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 2 | MindSpore | 动态组网 | Scheduler所在服务器 | Scheduler所在服务器的ip | 动态端口1024~65535 | Worker | Worker所在机器的IP地址 | 8118~12214(为每个worker分配特定端口范围) | TCP | 每个worker进程打开随机端口,Scheduler处理完所有worker发送的组网请求之后,会将网络信息发送给每个worker。多个worker会打开多个随机端口号。<br/> | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 3 | MindSpore | 动态组网 | Worker所在服务器 | Worker所在服务器的ip | 动态端口1024~65535 | Worker | Worker所在机器的IP地址 | 8118~12214(为每个worker分配特定端口范围) | TCP | <br/>每个worker进程生成随机端口,在进行梯度归约时,接收其他worker节点发送的梯度数据,完成梯度归约。多个worker会打开多个随机端口号。<br/><br/> | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 3 | MindSpore | 动态组网+Ascend CM启动分布式训练 | Worker所在服务器 | Worker所在服务器的ip | 动态端口1024~65535 | Scheduler | Scheduler所在机器的IP地址 | 用户配置的 MS_SCHED_PORT+1 | TCP | Scheduler开放 MS_SCHED_PORT+1端口号,作为HCCL CM方式启动的主节点端口地址,用于HCCL host完成组网。但是只会在初始化阶段使用,初始化完后端口和对应链接全部会被释放。 | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 无 | 无 | 控制面/业务面 | MindSpore 2.1 及之后版本 | 只在Ascend CM启动方式下生效 | |
|
||||
| 4 | MindSpore | GPU/Ascend分布式训练(OpenMPI) | 使用MindSpore进行OpenMPI启动分布式训练所在机器 | 使用MindSpore进行OpenMPI启动分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 用户可配,默认0.0.0.0 | 动态端口1024~65535 | TCP | 各进程(包括主进程和子进程)监听一个<br/>用于在跨机场景下,主机间控制面指令输出结果同步到本机。在Mindspore中,用于主机名同步,NCCL root进程id同步等。<br/>mpirun进程之间会建立链接,不会使用22端口,22端口只是用于ssh登录而已。 | | 否 | 无 | 无 | 控制面/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 5 | MindSpore | GPU/Ascend分布式训练(OpenMPI) | 使用MindSpore进行OpenMPI启动分布式训练所在机器 | 使用MindSpore进行OpenMPI启动分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 127.0.0.1 | 动态端口1024~65535 | TCP | 主进程监听一个<br/>相同主机上的进程通过本地环路进行通讯,在Mindspore中,用于主机名同步,NCCL root进程id同步等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 6 | MindSpore | GPU分布式训练(NCCL) | 使用MindSpore进行GPU分布式训练所在机器 | 使用MindSpore进行GPU分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 使用MindSpore进行GPU分布式训练所在机器的IP地址 | 随机端口(1024~65535),端口数由用户启动的训练进程数决定,如果用户启动N个进程,则NCCL启动N个侦听端口 | TCP | 每个子进程监听一个<br/>NCCL初始化communicator时监听端口,用于各个进程之间建立按照AllGather Ring算法建立tcp链接,root进程与其他进程同步信息,其他进程间数据传送,梯度聚合等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 7 | MindSpore | GPU分布式推理(NCCL) | 使用MindSpore Lite进行GPU分布式推理所在机器 | 使用MindSpore Lite进行GPU分布式推理所在机器的IP地址 | 动态端口1024~65535 | 推理进程 | 使用MindSpore Lite进行GPU分布式推理所在机器的IP地址 | 随机端口(1024~65535),端口数由用户启动的推理进程数决定,如果用户启动N个进程,则NCCL启动N个侦听端口 | TCP | 每个子进程监听一个<br/>NCCL初始化communicator时监听端口,用于各个进程之间建立按照AllGather Ring算法建立tcp链接,root进程与其他进程同步信息,其他进程间数据传送,梯度聚合等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 8 | MindSpore | Micro代码生成 | 使用MindSpore Lite生成的脚本进行工程编译 | 使用MindSpore Lite生成的脚本进行工程编译所在机器的IP地址 | 动态端口1024~65535 | MindSpore发布件所在的OBS服务器 | MindSpore发布件所在的OBS服务器的IP地址 | 443 | TCP | 通过网络建链下载发布件 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| | MindSpore | Triton Server 后端接入 | 使用MindSpore Lite的服务器 | 使用MindSpore Lite的服务器的所在IP | | Triton Server的服务器 | Triton Server的服务器的IP | | | 用于通信传输推理请求报文与响应 | | | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| | MindSpore | 代码优化服务化部署 | 使用MindSpore Lite的服务器 | 使用MindSpore Lite的服务器的所在IP | 9190(用户可配) | RPC的服务端 | RPC服务端所在IP | 9091(用户可配) | TCP | 1.服务端为用于RPC建链的的server侧侦听的TCP端口号; <br/>2.源端口号为Client侧TCP协议栈自行分配的端口号 | 由接口配置 | 是 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| | CANN | 1951弹性加速服务环境(拉远)通信 | D芯片 | 推理服务器所在的IP | 动态端口1024~65535 | D芯片 | 由用户配置 | 由用户配置 | TCP | 1. 目的端口号为用于建链的server侧侦听的TCP端口号<br/>2. 源端口号为Client侧TCP协议栈自行分配的端口号 | 由配置文件配置 | 是 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| 9 | CANN | HCCL集合通信 | D芯片 | 由用户配置 | 动态端口1024~65535 | D芯片 | 由用户配置 | 16666 | TCP | 1. 目的端口号为用于HCCL建链的server侧侦听的TCP端口号<br/>2. 源端口号为Client侧TCP协议栈自行分配的端口号 | 由配置文件配置 | 否 | 证书认证 | TLS 1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCE建链时,在server侧侦听16666端口。 |
|
||||
| 10 | CANN | HCCL集合通信 | D芯片 | 由用户配置 | 动态端口1024~65535 | D芯片 | 由用户配置 | 4791 | UDP | 1. RoCE报文的目的端口号固定为4791<br/>2. RoCE报文的源端口号为驱动根据QPN生产的端口号 | 由配置文件配置 | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCEv2协议,主要负责传输层 |
|
||||
| 11 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 用户配置 | TCP | 选择一个AI server作为TCP服务器,主动监听响应其他AI server的socket建链请求,连接后进行TCP数据传输,实现集群计算资源信息的收集和分发。 | | 否 | 数字证书认证 | TLS 1.2 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | HCCL_IF_BASE_PORT 功能描述OPBase模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口。默认值为60000,取值范围[0,65520]。配置示例export HCCL_IF_BASE_PORT = 50000 |
|
||||
| 12 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 用户配置 | TCP | 根据数据面网络拓扑建立socket链接用于RDMA链路内存地址协商 | | 否 | 数字证书认证 | TLS 1.2 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | HCCL_IF_BASE_PORT 功能描述OPBase模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口。默认值为60000,取值范围[0,65520]。配置示例export HCCL_IF_BASE_PORT = 50000 |
|
||||
| 13 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 4791 | UDP | 1. RoCE报文的目的端口号固定为4791<br/>2. RoCE报文的源端口号为驱动根据QPN生产的端口号 | | 否 | 无 | 无 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCEv2协议,主要负责传输层 |
|
||||
| 14 | Serving | 服务化推理部署 | Serving client所在服务器 | 随机 | 随机 | Serving Server所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口由http或grpc创建请求是随机选择,目的端口启动Serving Server时由用户指定 | 源端口由http或grpc创建请求是随机选择,目的端口启动Serving Server时由用户指定 | 否 | 数字证书认证 | >=TLS 1.2 | 业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 15 | Serving | 服务化推理部署 | Serving Worker Agent所在服务器 | 由用户配置 | 由用户配置 | Serving Worker 所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口由用户启动分布式Worker Agent时指定,目的端口启动Serving Server时由用户指定 | 源端口由用户启动分布式Worker Agent时指定,目的端口启动Serving Server时由用户指定 | 否 | 不涉及 | 不涉及 | 用户/业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 16 | Serving | 服务化推理部署 | Serving Worker 所在服务器 | 由用户配置 | 由用户配置 | Serving Worker Agent所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口启动Serving Server时由用户指定,目的端口由用户启动分布式Worker Agent时指定 | 源端口启动Serving Server时由用户指定,目的端口由用户启动分布式Worker Agent时指定 | 否 | 不涉及 | 不涉及 | 用户/业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 1 | MindSpore Federated | 端云横向联邦 | 手机端 | 手机端所在机器的IP地址 | 动态端口1024~65535 | server所在服务器 | server所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 用于联邦学习场景下,手机端通过该端口完成联邦学习的全周期,包括:前期密钥协商,获取服务端模型权重,接受端侧将训练好的模型权重发送给云服务进行梯度聚合, 获取聚合权重。若开启安全聚合则新增秘密分享与签名等字段。默认HTTPS | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 仅用于端侧联邦学习。 | |
|
||||
| 2 | MindSpore Federated | 端云横向联邦 | 手机端 | 手机端所在机器的IP地址 | 动态端口1024~65535 | server所在服务器 | server所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 用于联邦学习场景下,手机端通过该端口完成联邦学习的全周期,包括:前期密钥协商,获取服务端模型权重,接受端侧将训练好的模型权重发送给云服务进行梯度聚合, 获取聚合权重。若开启安全聚合则新增秘密分享与签名等字段。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 仅用于端侧联邦学习。 | |
|
||||
| | MindSpore Federated | 端云横向联邦端侧敏感信息存储 | 手机端 | 手机端的ClientID | 无 | 终端huks | keyStore相关接口 | 用户配置端口1024~65535 | huks协议 | 通过KeyStore接口与huks通信获取证书、签名、验签 | | | 设备认证 | 私有加密 | 平台软件不涉及多平面 | MindSpore Federated 0.1.1及之后版本 | 默认安全 | |
|
||||
| 3 | MindSpore Federated | 混合联邦云侧 | FL Server/FL Scheduler所在服务器 | worker/server所在服务器的ip | 动态端口1024~65535 | FL Worker | FL Worker所在机器的IP地址 | 动态端口1024~65535 | TCP | FL Worker用于云侧数据集训练,并与与FL server交互,达成混合模式的联邦学习。如果启动多个worker,会打开多个随机端口号。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 默认安全 | |
|
||||
| 4 | MindSpore Federated | 混合联邦云侧 | FL Server/FL Scheduler所在服务器 | worker/server所在服务器的ip | 动态端口1024~65535 | FL Worker | FL Worker所在机器的IP地址 | 动态端口1024~65535 | TCP | FL Worker用于云侧数据集训练,并与与FL server交互,达成混合模式的联邦学习。如果启动多个worker,会打开多个随机端口号。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 该端云联邦学习场景下的FL Worker、FL Server和FL Scheduler都部署在云上的一个vpc内,通过网络进行隔离确保该域内节点之间都是相互信任,所以不需要加密传输和身份认证。 | |
|
||||
| 5 | MindSpore Federated | 横向联邦云侧 | FL Server/FL Worker所在服务器 | Worker/server所在服务器IP地址 | 动态端口1024~65535 | FL Server | FL Server所在机器的IP地址 | 动态端口1024~65535 | TCP | 该随机端口是FL Server进程提供,用于处理来自FL Worker和FL Sever的消息,这些消息可以用来完成allreduce等算法,以及安全聚合中的秘钥协商与签名。如果启动多个server,会打开多个随机端口号。默认启用SSL。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 默认安全 | |
|
||||
| 6 | MindSpore Federated | 横向联邦云侧 | FL Server/FL Worker所在服务器 | Worker/server所在服务器IP地址 | 动态端口1024~65535 | FL Server | FL Server所在机器的IP地址 | 动态端口1024~65535 | TCP | 该随机端口是FL Server进程提供,用于处理来自FL Worker和FL Sever的消息,这些消息可以用来完成allreduce等算法,以及安全聚合中的秘钥协商与签名。如果启动多个server,会打开多个随机端口号。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 端云联邦场景下的FL Worker、FL Server和FL Scheduler都部署在云上的一个vpc内,通过网络进行隔离确保该域内节点之间都是相互信任,所以不需要加密传输和身份认证。 | |
|
||||
| 7 | MindSpore Federated | 集群信息同步 | Worker所在服务器 | Worker所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 第三方缓存进程提供端口,用于通信层处理Worker节点发送的注册信息。Worker从第三方缓存同步集群状态。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 8 | MindSpore Federated | 集群信息同步 | Worker所在服务器 | Worker所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 第三方缓存进程提供端口,用于通信层处理Server节点发送的注册信息。Worker从第三方缓存同步集群状态。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 9 | MindSpore Federated | 集群信息同步 | Server所在服务器 | Server所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 第三方缓存进程提供端口,用于通信层处理Server节点发送的注册信息。Server从第三方缓存同步集群状态。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 10 | MindSpore Federated | 集群信息同步 | Server所在服务器 | Server所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 第三方缓存进程提供端口,用于通信层处理Server节点发送的注册信息。Server从第三方缓存同步集群状态。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 11 | MindSpore Federated | 集群信息同步 | Scheduler所在服务器 | Scheduler所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 第三方缓存进程提供端口,用于处理Scheduler节点发送集群管理信息。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 12 | MindSpore Federated | 集群信息同步 | Scheduler所在服务器 | Scheduler所在服务器的ip地址 | 动态端口1024~65535 | 第三方缓存 | 第三方缓存所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 第三方缓存进程提供端口,用于处理Scheduler节点发送集群管理信息。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 13 | MindSpore Federated | 纵向联邦 | LeaderNode所在服务器 | LeaderNode所在服务器的ip地址 | 用户配置端口1024~65535 | FollowerNode | FollowerNode所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 纵向联邦FollowerNode启动监听端口,用于处理LeaderNode节点发送特征张量相关的梯度信息,然后执行前级网络参数更新。以及隐私集合求交的加密样本ID。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 14 | MindSpore Federated | 纵向联邦 | LeaderNode所在服务器 | LeaderNode所在服务器的ip地址 | 用户配置端口1024~65535 | FollowerNode | FollowerNode所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 纵向联邦FollowerNode启动监听端口,用于处理LeaderNode节点发送特征张量相关的梯度信息,然后执行前级网络参数更新。以及隐私集合求交的加密样本ID。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 15 | MindSpore Federated | 纵向联邦 | FollowerNode所在服务器 | FollowerNode所在服务器的ip地址 | 用户配置端口1024~65535 | LeaderNode | LeaderNode所在机器的IP地址 | 用户配置端口1024~65535 | HTTP | 纵向联邦LeaderNode启动监听端口,用于处理FollowerNode节点发送的特征张量,将其作为后级网络输入,采用标签数据和预测输出,计算损失值 loss。以及隐私集合求交的加密样本ID。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 16 | MindSpore Federated | 纵向联邦 | FollowerNode所在服务器 | FollowerNode所在服务器的ip地址 | 用户配置端口1024~65535 | LeaderNode | LeaderNode所在机器的IP地址 | 用户配置端口1024~65535 | HTTPS | 纵向联邦LeaderNode启动监听端口,用于处理FollowerNode节点发送的特征张量,将其作为后级网络输入,采用标签数据和预测输出,计算损失值 loss。以及隐私集合求交的加密样本ID。 | 配置启动脚本,将端口传入对外启动接口 | 是 | 数字证书认证 | SSL | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 无 | |
|
||||
| 17 | MindSpore Federated | 分布式并行云云联邦 | 使用MindSpore进行OpenMPI启动分布式训练所在机器 | 使用MindSpore进行OpenMPI启动分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 使用MindSpore进行分布式训练所在机器的IP地址 | 动态端口1024~65535 | TCP | 分布式并行联邦Worker调用OpenMPI初始化NCCL/HCCL通信管道,应用于每个进程之间的权重通信。获取更新权重后,rank0通过Mindspore的Broadcast算子广播模型权重给非rank0,覆盖本地权重。 | 配置启动脚本,将端口传入对外启动接口 | 否 | 无 | 无 | 平台软件不涉及多平面 | MindSpore Federated 0.1.0及之后版本 | 默认安全 | |
|
||||
| 33 | MindInsight | Web可视化服务端口 | 用户通过http访问 | 用户IP | | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | Http | 接收用户浏览器发送的web请求,返回用户训练的性能精度数据进行可视化展示 | mindinsight start --port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
| 34 | MindInsight | 在线调试器端口 | MindSpore训练服务器 | MindSpore训练服务器 | 用户配置1~65535 | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | TCP | 在训练过程中从MIndSpore获取训练数据,在MindInsight进行可视化展示 | mindinsight start --debugger-port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
| 34 | MindSpore | 在线调试器端口 | MindSpore训练服务器 | MindSpore训练服务器 | 用户配置1~65535 | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | TCP | 在训练过程中从MIndSpore获取训练数据,在MindInsight进行可视化展示 | export MS_DEBUGGER_PORT=xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本<br/>MindSpore 1.3.0及之后版本 | 无 | |
|
||||
| 35 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://www.pdbbind.org.cn/download.php | | HTTP | | | | | | | | | |
|
||||
| 36 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://ftp.cbi.pku.edu.cn/psp/ | | HTTP | | | | | | | | | |
|
||||
| 37 | MindScience-MindSPONGE | dataset/ckpt下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://download.mindspore.cn/mindscience/mindsponge/ | | HTTPS | | | | | | | | | |
|
||||
| 38 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/xzenglab/KGNN/tree/master/raw_data/kegg | | HTTPS | | | | | | | | | |
|
||||
| 39 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://pan.baidu.com/s/1y2EWQlZJhJfqi_UyUnEicw?pwd=o5k2 | | HTTPS | | | | | | | | | |
|
||||
| 40 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/ChengF-Lab/deepDR | | HTTPS | | | | | | | | | |
|
||||
| 41 | MindScience-MindSPONGE | MSA搜索结果下载 | 用户所在服务器 | 用户所在服务器的ip | | | | | HTTPS | | | | | | | | | |
|
||||
| 42 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://linqs-data.soe.ucsc.edu/public/Pubmed-Diabetes.tgz | | HTTPS | | | | | | | | | |
|
||||
| 43 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://deepchem.io.s3-website-us-west-1.amazonaws.com/datasets/gdb9.tar.gz | | HTTP | | | | | | | | | |
|
||||
| 44 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://deepchem.io.s3-website-us-west-1.amazonaws.com/datasets/tox21.csv.gz | | HTTP | | | | | | | | | |
|
||||
| 45 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/DeepGraphLearning/KnowledgeGraphEmbedding/raw/master/data/ | | HTTPS | | | | | | | | | |
|
||||
| 46 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://raw.githubusercontent.com/aspuru-guzik-group/chemical_vae/master/models/zinc_properties/250k_rndm_zinc_drugs_clean_3.csv | | HTTPS | | | | | | | | | |
|
||||
| 47 | MindScience-MindSPONGE dev-md分支 | 评价工具下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/rdkit/rdkit/raw/master/Contrib/SA_Score/fpscores.pkl.gz | | HTTPS | | | | | | | | | |
|
||||
| 48 | MindScience-MindSPONGE dev-md分支 | 模型下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://www.quantum-machine.org/datasets/trained_schnet_models.zip | | HTTP | | | | | | | | | |
|
||||
| 49 | MindData | 数据集缓存加速 | 用户所在服务器 | 用户所在服务器的ip | 随机 | 用户所在服务器 | 回环地址 | 用户配置1025~65535,默认为50052 | TCP | MindData cache服务是独立于MindSpore训练进程的进程,所以需要和MindSpore训练进程通信,对数据进行缓存,加速读取。 | cache_admin --start返回port | 是 | 无 | 无 | 业务面 | MindSpore 1.1.0及之后版本 | 无 | |
|
||||
| 50 | MindData | 从OBS下载MindRecord训练 | 用户所在服务器 | 用户所在服务器的ip | 随机 | OBS服务 | OBS服务IP | 80/443 | HTTP/HTTPS | OBS服务提供的端口,用于和用户服务器之间传输训练数据 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | 业务面 | | 无 | |
|
||||
| 51 | MindAKG | 远程调试 | 用户所在服务器 | 用户所在服务器的ip | | | 用户所在服务器的ip | | | | | | | | | | | |
|
||||
| 52 | MindAKG | MindSpore调用AKG进程通信 | 用户所在服务器 | 用户所在服务器的ip | | | 用户所在服务器的ip | | | | | | | | | | | |
|
||||
| 53 | Graph Learning | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | | | HTTP | | | | | | | | | |
|
||||
| 54 | MindCV | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
| 55 | MindNLP | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
| 56 | MindOCR | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
| 序号 | 代码仓 | 功能 | 源设备 | 源IP | 源端口 | 目的设备 | 目的IP | 目的端口<br/>(侦听) | 协议 | 端口说明 | 端口配置 | 侦听端口是否可更改 | 认证方式 | 加密方式 | 所属平面 | 版本 | 特殊场景 | 备注 |
|
||||
|:----|:--------------------------------|:-------------------------|:--------------------------------|:-----------------------------------------------------------------------------------|:-----------------|:--------------------------|:---------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------|:-----------|:--------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------|:----------|:-------|:-------------------|:-----------|:------------------------------------------------|:-------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
||||
| 1 | MindSpore | 动态组网 | Worker所在服务器 | worker所在服务器的ip | 动态端口1024~65535 | Scheduler | Scheduler所在机器的IP地址 | 用户配置的 MS_SCHED_PORT | TCP | Scheduler进程提供端口,用于通信层处理Worke节点发送的组网请求。 | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 是 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 2 | MindSpore | 动态组网 | Scheduler所在服务器 | Scheduler所在服务器的ip | 动态端口1024~65535 | Worker | Worker所在机器的IP地址 | 8118~12214(为每个worker分配特定端口范围) | TCP | 每个worker进程打开随机端口,Scheduler处理完所有worker发送的组网请求之后,会将网络信息发送给每个worker。多个worker会打开多个随机端口号。<br/> | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 3 | MindSpore | 动态组网 | Worker所在服务器 | Worker所在服务器的ip | 动态端口1024~65535 | Worker | Worker所在机器的IP地址 | 8118~12214(为每个worker分配特定端口范围) | TCP | <br/>每个worker进程生成随机端口,在进行梯度归约时,接收其他worker节点发送的梯度数据,完成梯度归约。多个worker会打开多个随机端口号。<br/><br/> | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 数字证书认证 | TLS 1.3(缺省)、TLS1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 4 | MindSpore | 动态组网+Ascend CM启动分布式训练 | Worker所在服务器 | Worker所在服务器的ip | 动态端口1024~65535 | Scheduler | Scheduler所在机器的IP地址 | 用户配置的 MS_SCHED_PORT+1 | TCP | Scheduler开放 MS_SCHED_PORT+1端口号,作为HCCL CM方式启动的主节点端口地址,用于HCCL host完成组网。但是只会在初始化阶段使用,初始化完后端口和对应链接全部会被释放。 | export MS_SCHED_HOST=xxx<br/>export MS_SCHED_PORT=xxx | 否 | 无 | 无 | 控制面/业务面 | MindSpore 2.1 及之后版本 | 只在Ascend CM启动方式下生效 | |
|
||||
| 5 | MindSpore | GPU/Ascend分布式训练(OpenMPI) | 使用MindSpore进行OpenMPI启动分布式训练所在机器 | 使用MindSpore进行OpenMPI启动分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 用户可配,根据用户配置host_file绑定ip地址 | 动态端口1024~65535 | TCP | 各进程(包括主进程和子进程)监听一个<br/>用于在跨机场景下,主机间控制面指令输出结果同步到本机。在Mindspore中,用于主机名同步,NCCL root进程id同步等。<br/>mpirun进程之间会建立链接,不会使用22端口,22端口只是用于ssh登录而已。 | | 否 | 无 | 无 | 控制面/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 6 | MindSpore | GPU/Ascend分布式训练(OpenMPI) | 使用MindSpore进行OpenMPI启动分布式训练所在机器 | 使用MindSpore进行OpenMPI启动分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 127.0.0.1 | 动态端口1024~65535 | TCP | 主进程监听一个<br/>相同主机上的进程通过本地环路进行通讯,在Mindspore中,用于主机名同步,NCCL root进程id同步等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 7 | MindSpore | GPU分布式训练(NCCL) | 使用MindSpore进行GPU分布式训练所在机器 | 使用MindSpore进行GPU分布式训练所在机器的IP地址 | 动态端口1024~65535 | 训练进程 | 使用MindSpore进行GPU分布式训练所在机器的IP地址 | 随机端口(1024~65535),端口数由用户启动的训练进程数决定,如果用户启动N个进程,则NCCL启动N个侦听端口 | TCP | 每个子进程监听一个<br/>NCCL初始化communicator时监听端口,用于各个进程之间建立按照AllGather Ring算法建立tcp链接,root进程与其他进程同步信息,其他进程间数据传送,梯度聚合等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 8 | MindSpore | GPU分布式推理(NCCL) | 使用MindSpore Lite进行GPU分布式推理所在机器 | 使用MindSpore Lite进行GPU分布式推理所在机器的IP地址 | 动态端口1024~65535 | 推理进程 | 使用MindSpore Lite进行GPU分布式推理所在机器的IP地址 | 随机端口(1024~65535),端口数由用户启动的推理进程数决定,如果用户启动N个进程,则NCCL启动N个侦听端口 | TCP | 每个子进程监听一个<br/>NCCL初始化communicator时监听端口,用于各个进程之间建立按照AllGather Ring算法建立tcp链接,root进程与其他进程同步信息,其他进程间数据传送,梯度聚合等。 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 9 | MindSpore | Micro代码生成 | 使用MindSpore Lite生成的脚本进行工程编译 | 使用MindSpore Lite生成的脚本进行工程编译所在机器的IP地址 | 动态端口1024~65535 | MindSpore发布件所在的OBS服务器 | MindSpore发布件所在的OBS服务器的IP地址 | 443 | TCP | 通过网络建链下载发布件 | | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | |
|
||||
| 10 | MindSpore | Triton Server 后端接入 | 使用MindSpore Lite的服务器 | 使用MindSpore Lite的服务器的所在IP | | Triton Server的服务器 | Triton Server的服务器的IP | | | 用于通信传输推理请求报文与响应 | | | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| 11 | MindSpore | 代码优化服务化部署 | 使用MindSpore Lite的服务器 | 使用MindSpore Lite的服务器的所在IP | 9190(用户可配) | RPC的服务端 | RPC服务端所在IP | 9091(用户可配) | TCP | 1.服务端为用于RPC建链的的server侧侦听的TCP端口号; <br/>2.源端口号为Client侧TCP协议栈自行分配的端口号 | 由接口配置 | 是 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| 12 | CANN | 1951弹性加速服务环境(拉远)通信 | D芯片 | 推理服务器所在的IP | 动态端口1024~65535 | D芯片 | 由用户配置 | 由用户配置 | TCP | 1. 目的端口号为用于建链的server侧侦听的TCP端口号<br/>2. 源端口号为Client侧TCP协议栈自行分配的端口号 | 由配置文件配置 | 是 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | | |
|
||||
| 13 | CANN | HCCL集合通信 | D芯片 | 由用户配置 | 动态端口1024~65535 | D芯片 | 由用户配置 | 16666 | TCP | 1. 目的端口号为用于HCCL建链的server侧侦听的TCP端口号<br/>2. 源端口号为Client侧TCP协议栈自行分配的端口号 | 由配置文件配置 | 否 | 证书认证 | TLS 1.2 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCE建链时,在server侧侦听16666端口。 |
|
||||
| 14 | CANN | HCCL集合通信 | D芯片 | 由用户配置 | 动态端口1024~65535 | D芯片 | 由用户配置 | 4791 | UDP | 1. RoCE报文的目的端口号固定为4791<br/>2. RoCE报文的源端口号为驱动根据QPN生产的端口号 | 由配置文件配置 | 否 | 无 | 无 | 业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCEv2协议,主要负责传输层 |
|
||||
| 15 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 用户配置 | TCP | 选择一个AI server作为TCP服务器,主动监听响应其他AI server的socket建链请求,连接后进行TCP数据传输,实现集群计算资源信息的收集和分发。 | | 否 | 数字证书认证 | TLS 1.2 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | HCCL_IF_BASE_PORT 功能描述OPBase模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口。默认值为60000,取值范围[0,65520]。配置示例export HCCL_IF_BASE_PORT = 50000 |
|
||||
| 16 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 用户配置 | TCP | 根据数据面网络拓扑建立socket链接用于RDMA链路内存地址协商 | | 否 | 数字证书认证 | TLS 1.2 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | HCCL_IF_BASE_PORT 功能描述OPBase模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口。默认值为60000,取值范围[0,65520]。配置示例export HCCL_IF_BASE_PORT = 50000 |
|
||||
| 17 | CANN | HCCL集合通信 | Ascend分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 动态端口1024~65535 | 分布式集合通信训练业务所在的服务器 | 由用户配置(分布式集合通信训练业务所在服务器的hostIP侧地址) | 4791 | UDP | 1. RoCE报文的目的端口号固定为4791<br/>2. RoCE报文的源端口号为驱动根据QPN生产的端口号 | | 否 | 无 | 无 | 用户/业务面 | MindSpore Enterprise 1.2.0及之后版本 | 无 | RoCEv2协议,主要负责传输层 |
|
||||
| 18 | Serving | 服务化推理部署 | Serving client所在服务器 | 随机 | 随机 | Serving Server所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口由http或grpc创建请求是随机选择,目的端口启动Serving Server时由用户指定 | 源端口由http或grpc创建请求是随机选择,目的端口启动Serving Server时由用户指定 | 否 | 数字证书认证 | >=TLS 1.2 | 业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 19 | Serving | 服务化推理部署 | Serving Worker Agent所在服务器 | 由用户配置 | 由用户配置 | Serving Worker 所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口由用户启动分布式Worker Agent时指定,目的端口启动Serving Server时由用户指定 | 源端口由用户启动分布式Worker Agent时指定,目的端口启动Serving Server时由用户指定 | 否 | 不涉及 | 不涉及 | 用户/业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 20 | Serving | 服务化推理部署 | Serving Worker 所在服务器 | 由用户配置 | 由用户配置 | Serving Worker Agent所在服务器 | 由用户配置 | 由用户配置 | TCP | 源端口启动Serving Server时由用户指定,目的端口由用户启动分布式Worker Agent时指定 | 源端口启动Serving Server时由用户指定,目的端口由用户启动分布式Worker Agent时指定 | 否 | 不涉及 | 不涉及 | 用户/业务面 | MindSpore Serving 1.0.0及之后版本 | 无 | |
|
||||
| 21 | MindInsight | Web可视化服务端口 | 用户通过http访问 | 用户IP | | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | Http | 接收用户浏览器发送的web请求,返回用户训练的性能精度数据进行可视化展示 | mindinsight start --port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
| 22 | MindInsight | 在线调试器端口 | MindSpore训练服务器 | MindSpore训练服务器 | 用户配置1~65535 | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | TCP | 在训练过程中从MIndSpore获取训练数据,在MindInsight进行可视化展示 | mindinsight start --debugger-port xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本 | 无 | |
|
||||
| 23 | MindSpore | 在线调试器端口 | MindSpore训练服务器 | MindSpore训练服务器 | 用户配置1~65535 | MindInsight服务所在服务器 | MindInsight服务所在服务器IP | 用户配置1~65535 | TCP | 在训练过程中从MIndSpore获取训练数据,在MindInsight进行可视化展示 | export MS_DEBUGGER_PORT=xxx | 是 | 无 | 无 | 用户/业务面 | MindInsight 1.3.0及之后版本<br/>MindSpore 1.3.0及之后版本 | 无 | |
|
||||
| 24 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://www.pdbbind.org.cn/download.php | | HTTP | | | | | | | | | |
|
||||
| 25 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://ftp.cbi.pku.edu.cn/psp/ | | HTTP | | | | | | | | | |
|
||||
| 26 | MindScience-MindSPONGE | dataset/ckpt下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://download.mindspore.cn/mindscience/mindsponge/ | | HTTPS | | | | | | | | | |
|
||||
| 27 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/xzenglab/KGNN/tree/master/raw_data/kegg | | HTTPS | | | | | | | | | |
|
||||
| 28 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://pan.baidu.com/s/1y2EWQlZJhJfqi_UyUnEicw?pwd=o5k2 | | HTTPS | | | | | | | | | |
|
||||
| 29 | MindScience-MindSPONGE | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/ChengF-Lab/deepDR | | HTTPS | | | | | | | | | |
|
||||
| 30 | MindScience-MindSPONGE | MSA搜索结果下载 | 用户所在服务器 | 用户所在服务器的ip | | | | | HTTPS | | | | | | | | | |
|
||||
| 31 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://linqs-data.soe.ucsc.edu/public/Pubmed-Diabetes.tgz | | HTTPS | | | | | | | | | |
|
||||
| 32 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://deepchem.io.s3-website-us-west-1.amazonaws.com/datasets/gdb9.tar.gz | | HTTP | | | | | | | | | |
|
||||
| 33 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://deepchem.io.s3-website-us-west-1.amazonaws.com/datasets/tox21.csv.gz | | HTTP | | | | | | | | | |
|
||||
| 34 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/DeepGraphLearning/KnowledgeGraphEmbedding/raw/master/data/ | | HTTPS | | | | | | | | | |
|
||||
| 35 | MindScience-MindSPONGE dev-md分支 | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://raw.githubusercontent.com/aspuru-guzik-group/chemical_vae/master/models/zinc_properties/250k_rndm_zinc_drugs_clean_3.csv | | HTTPS | | | | | | | | | |
|
||||
| 36 | MindScience-MindSPONGE dev-md分支 | 评价工具下载 | 用户所在服务器 | 用户所在服务器的ip | | | https://github.com/rdkit/rdkit/raw/master/Contrib/SA_Score/fpscores.pkl.gz | | HTTPS | | | | | | | | | |
|
||||
| 37 | MindScience-MindSPONGE dev-md分支 | 模型下载 | 用户所在服务器 | 用户所在服务器的ip | | | http://www.quantum-machine.org/datasets/trained_schnet_models.zip | | HTTP | | | | | | | | | |
|
||||
| 38 | MindData | 数据集缓存加速 | 用户所在服务器 | 用户所在服务器的ip | 随机 | 用户所在服务器 | 回环地址 | 用户配置1025~65535,默认为50052 | TCP | MindData cache服务是独立于MindSpore训练进程的进程,所以需要和MindSpore训练进程通信,对数据进行缓存,加速读取。 | cache_admin --start返回port | 是 | 无 | 无 | 业务面 | MindSpore 1.1.0及之后版本 | 无 | |
|
||||
| 39 | MindData | 从OBS下载MindRecord训练 | 用户所在服务器 | 用户所在服务器的ip | 随机 | OBS服务 | OBS服务IP | 80/443 | HTTP/HTTPS | OBS服务提供的端口,用于和用户服务器之间传输训练数据 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | 业务面 | | 无 | |
|
||||
| 40 | MindAKG | 远程调试 | 用户所在服务器 | 用户所在服务器的ip | | | 用户所在服务器的ip | | | | | | | | | | | |
|
||||
| 41 | MindAKG | MindSpore调用AKG进程通信 | 用户所在服务器 | 用户所在服务器的ip | | | 用户所在服务器的ip | | | | | | | | | | | |
|
||||
| 42 | Graph Learning | dataset下载 | 用户所在服务器 | 用户所在服务器的ip | | | | | HTTP | | | | | | | | | |
|
||||
| 43 | MindCV | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
| 44 | MindNLP | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
| 45 | MindOCR | 权重自动下载 | MindSpore文件存储服务器 | [https://download.mindspore.cn/toolkits/](https://download.mindspore.cn/toolkits/) | | 用户所在服务器 | 用户所在服务器的ip | | HTTPS | 自动下载预训练权重 | 客户端不涉及 | 不涉及 | 不涉及 | 不涉及 | | | 无 | |
|
||||
|
||||
Openmind通信矩阵
|
||||
|
||||
|
||||
@@ -14,8 +14,6 @@
|
||||
# ============================================================================
|
||||
"""Test Multi-head Latent Attention (MLA) with various configurations."""
|
||||
import os
|
||||
import time
|
||||
import socket
|
||||
import subprocess
|
||||
from pathlib import Path
|
||||
import pytest
|
||||
@@ -88,15 +86,6 @@ SINGLE_CARD_TEST_CASES = [
|
||||
)
|
||||
]
|
||||
|
||||
def get_free_port():
|
||||
"""Getting a random free port."""
|
||||
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
|
||||
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
|
||||
s.bind(('0.0.0.0', 0))
|
||||
_, port = s.getsockname()
|
||||
time.sleep(0.05)
|
||||
return port
|
||||
|
||||
|
||||
def build_msrun_command_list(
|
||||
worker_num, local_worker_num, log_dir, run_script_path, struct,
|
||||
@@ -232,6 +221,7 @@ class TestMultiLatentAttention:
|
||||
output_ms_dict_mind = np.load(output_file_path, allow_pickle=False)['output']
|
||||
assert np.allclose(output_ms_dict_mind, output_ms_dict_mega)
|
||||
|
||||
|
||||
class TestMultiLatentAttentionSingleCard(TestMultiLatentAttention):
|
||||
"""Test class for Multi-head Latent Attention on single card"""
|
||||
@pytest.mark.level0
|
||||
|
||||
@@ -14,9 +14,7 @@
|
||||
# ============================================================================
|
||||
"""Test Multi-Token Prediction (MTP) with various configurations."""
|
||||
import os
|
||||
import socket
|
||||
import subprocess
|
||||
import time
|
||||
from pathlib import Path
|
||||
import pytest
|
||||
import numpy as np
|
||||
@@ -46,15 +44,6 @@ SINGLE_CARD_TEST_CASES = [
|
||||
]
|
||||
|
||||
|
||||
def get_free_port():
|
||||
"""Getting a random free port."""
|
||||
with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
|
||||
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
|
||||
s.bind(('0.0.0.0', 0))
|
||||
_, port = s.getsockname()
|
||||
time.sleep(0.05)
|
||||
return port
|
||||
|
||||
def build_msrun_command_list(
|
||||
worker_num, local_worker_num, log_dir, run_script_path,
|
||||
batch_size, seq_length, hidden_size, # Input shape args
|
||||
|
||||
Reference in New Issue
Block a user