基于TORQUE的并行检查点执行方法
基本信息
申请号 | CN201210367653.4 | 申请日 | - |
公开(公告)号 | CN102915257A | 公开(公告)日 | 2013-02-06 |
申请公布号 | CN102915257A | 申请公布日 | 2013-02-06 |
分类号 | G06F11/00(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 林霞 | 申请(专利权)人 | 曙光智算信息技术有限公司 |
代理机构 | 北京安博达知识产权代理有限公司 | 代理人 | 曙光信息产业(北京)有限公司 |
地址 | 100193 北京市海淀区东北旺西路8号中关村软件园36号楼 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种基于TORQUE的并行检查点执行方法,在NFS文件共享存储系统中对计算节点进行检查点操作,所述方法包括如下步骤:(1).用户向TORQUE服务器守护进程pbs_server提交作业,提交命令加入检查点请求,作业脚本中使用作业启动命令chkp_mpirun启动任务;(2).TORQUE服务器守护进程发送任务消息给TORQUE调度器pbs_sched,TORQUE调度器pbs_sched根据作业中指定的参数要求寻找计算节点;(3).对计算节点进行检查点操作。本发明提供的基于TORQUE的并行检查点执行方法,运用改进的基于TORQUE的改进检查点技术,使得原来只支持单进程检查点的TORQUE,现在也能够支持多进程检查点,并能够对节点故障自动处理,对进程进行迁移。 |
