基于NFDT的分布式训练框架构建方法、分布式训练方法及系统
基本信息
申请号 | CN202010523162.9 | 申请日 | - |
公开(公告)号 | CN111767034A | 公开(公告)日 | 2020-10-13 |
申请公布号 | CN111767034A | 申请公布日 | 2020-10-13 |
分类号 | G06F8/30(2018.01)I | 分类 | 计算;推算;计数; |
发明人 | 兰毅 | 申请(专利权)人 | 钛星投资(深圳)有限公司 |
代理机构 | 重庆双马智翔专利代理事务所(普通合伙) | 代理人 | 顾晓玲 |
地址 | 518052广东省深圳市前海深港合作区前湾一路1号A栋201室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于NFDT的分布式训练框架构建方法、分布式训练方法及系统,该分布式训练方法包括如下步骤:单机用户将数据集和代码存储于集群网络中并生成唯一hash值;分布式训练模块接收任务需求对应的hash值从集群网络下载数据集和单机版代码;分布式训练模块利用单机版代码生成分布式训练框架;分布式训练框架调用计算资源进行分布式训练。本发明的用户只需要上传自己的数据集和单机训练代码,利用去中心化存储方式将训练任务压缩到集群中,集群中对应的训练设备根据收到的hash值将其解压,保证了训练的安全性和数据可靠性。本发明的NFDT框架对单机版训练过程中产生的模型文件进行模型解读和分析,实现单机版代码结构到分布式的训练功能。 |
