一种支持多类集群后端的深度学习调度系统及调度方法
基本信息
申请号 | CN202110360064.2 | 申请日 | - |
公开(公告)号 | CN113065848A | 公开(公告)日 | 2021-07-02 |
申请公布号 | CN113065848A | 申请公布日 | 2021-07-02 |
分类号 | G06Q10/10;G06F9/50;G06N3/04 | 分类 | 计算;推算;计数; |
发明人 | 黄进军;谢冬鸣;林健 | 申请(专利权)人 | 东云睿连(武汉)计算技术有限公司 |
代理机构 | 武汉智正诚专利代理事务所(普通合伙) | 代理人 | 熊远 |
地址 | 430074 湖北省武汉市东湖新技术开发区金融港四路18号普天物联网创新研发基地(一期)6A栋4层-2室 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种支持多类集群后端的深度学习调度系统及调度方法,所述系统包括作业管理组件、集群管理组件和至少一个后端集群;每个后端集群对应有一个作业调度组件和多个计算节点,其中集群管理组件负责多类集群后端的接入,作业管理组件负责根据用户需求,将深度学习作业分配到合适的集群,然后作业调度组件将作业分派到计算节点执行,同时作业管理组件会监听和记录作业的执行情况和资源使用情况,提供用户后续查询分析。本发明可以为企业平台的架构演进和转型提供一个平滑过渡方案,也可以充分利用各种类型集群的计算资源,提高分布式深度学习的效率。 |
