一种支持多类集群后端的深度学习调度系统及调度方法

基本信息

申请号 CN202110360064.2 申请日 -
公开(公告)号 CN113065848A 公开(公告)日 2021-07-02
申请公布号 CN113065848A 申请公布日 2021-07-02
分类号 G06Q10/10;G06F9/50;G06N3/04 分类 计算;推算;计数;
发明人 黄进军;谢冬鸣;林健 申请(专利权)人 东云睿连(武汉)计算技术有限公司
代理机构 武汉智正诚专利代理事务所(普通合伙) 代理人 熊远
地址 430074 湖北省武汉市东湖新技术开发区金融港四路18号普天物联网创新研发基地(一期)6A栋4层-2室
法律状态 -

摘要

摘要 本申请提供一种支持多类集群后端的深度学习调度系统及调度方法,所述系统包括作业管理组件、集群管理组件和至少一个后端集群;每个后端集群对应有一个作业调度组件和多个计算节点,其中集群管理组件负责多类集群后端的接入,作业管理组件负责根据用户需求,将深度学习作业分配到合适的集群,然后作业调度组件将作业分派到计算节点执行,同时作业管理组件会监听和记录作业的执行情况和资源使用情况,提供用户后续查询分析。本发明可以为企业平台的架构演进和转型提供一个平滑过渡方案,也可以充分利用各种类型集群的计算资源,提高分布式深度学习的效率。