一种可回溯的强化学习智能体训练方法专利查询专利号|摘要-满商公司网

一种可回溯的强化学习智能体训练方法

基本信息

申请号	CN202210096139.5	申请日	-
公开（公告）号	CN114511096A	公开（公告）日	2022-05-17
申请公布号	CN114511096A	申请公布日	2022-05-17
分类号	G06N20/00（2019.01）I;G06K9/62（2022.01）I	分类	计算；推算；计数;
发明人	尹学渊;邱良良	申请（专利权）人	成都潜在人工智能科技有限公司
代理机构	成都睿道专利代理事务所（普通合伙）	代理人	-
地址	610000四川省成都市高新区益州大道中段722号1栋1单元12层1210号
法律状态	-

摘要

本发明提供一种可回溯的强化学习智能体训练方法，包括如下步骤：创建预设长度用于保存智能体的状态、状态映射的Cell、行为、奖励和done数据的字典；进行数据探索，首先从字典中选择Cell，并以被选择的Cell作为目标，return选定的目标，以目标作为新起点，选择新目标进行探索，并记录return阶段和探索阶段遇到的所有状态和行为，将所有状态映射为Cell，并将所有状态、所有Cell和行为更新到字典中；获取数据探索收集到的所有Cell和行为数据，基于强化学习算法进行学习，并更新学习算法的参数；本发明采用存档的方式来记录智能体到达过的所有状态，以目标的方式引导智能体能够回到存档中的状态；智能体回到任意状态后重新开始探索，理论上能探索到环境中所有的空间。