一种神经网络训练任务的排队系统及其方法

基本信息

申请号 CN201811301453.2 申请日 -
公开(公告)号 CN109828833B 公开(公告)日 2019-05-31
申请公布号 CN109828833B 申请公布日 2019-05-31
分类号 G06F9/48(2006.01)I 分类 计算;推算;计数;
发明人 任如意;康茂银;樊晶;李磊;顾翊;黄义庭 申请(专利权)人 上海帆一尚行科技有限公司
代理机构 上海精晟知识产权代理有限公司 代理人 上海帆一尚行科技有限公司
地址 200131上海市浦东新区中国(上海)自由贸易试验区富特东一路370号1幢4层407室
法律状态 -

摘要

摘要 本发明公开了一种神经网络训练任务的排队系统及其方法,Workquene为任务队列,负责管理任务的优先级策略;ResourceFactory负责任务队列和资源集群的交互;Eventloop负责管理监听集群和任务的变化,匹配可运行的任务,并从任务队列中取出相关任务放入集群执行;ClusterInformer是集群的事件通知系统,集群一旦有资源相关变化,可以执行某个回调函数执行相关逻辑。这个四个组件可以针对主流的集群管理系统提供用户态任务管理机制。本发明提高了硬件特别是GPU资源的使用效率,并提供细粒度的任务管理机制。