基于NFDT的分布式训练框架构建方法、分布式训练方法及系统

基本信息

申请号 CN202010523162.9 申请日 -
公开(公告)号 CN111767034A 公开(公告)日 2020-10-13
申请公布号 CN111767034A 申请公布日 2020-10-13
分类号 G06F8/30(2018.01)I 分类 计算;推算;计数;
发明人 兰毅 申请(专利权)人 钛星投资(深圳)有限公司
代理机构 重庆双马智翔专利代理事务所(普通合伙) 代理人 顾晓玲
地址 518052广东省深圳市前海深港合作区前湾一路1号A栋201室
法律状态 -

摘要

摘要 本发明公开了一种基于NFDT的分布式训练框架构建方法、分布式训练方法及系统,该分布式训练方法包括如下步骤:单机用户将数据集和代码存储于集群网络中并生成唯一hash值;分布式训练模块接收任务需求对应的hash值从集群网络下载数据集和单机版代码;分布式训练模块利用单机版代码生成分布式训练框架;分布式训练框架调用计算资源进行分布式训练。本发明的用户只需要上传自己的数据集和单机训练代码,利用去中心化存储方式将训练任务压缩到集群中,集群中对应的训练设备根据收到的hash值将其解压,保证了训练的安全性和数据可靠性。本发明的NFDT框架对单机版训练过程中产生的模型文件进行模型解读和分析,实现单机版代码结构到分布式的训练功能。