一种可回溯的强化学习智能体训练方法
基本信息
申请号 | CN202210096139.5 | 申请日 | - |
公开(公告)号 | CN114511096A | 公开(公告)日 | 2022-05-17 |
申请公布号 | CN114511096A | 申请公布日 | 2022-05-17 |
分类号 | G06N20/00(2019.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 尹学渊;邱良良 | 申请(专利权)人 | 成都潜在人工智能科技有限公司 |
代理机构 | 成都睿道专利代理事务所(普通合伙) | 代理人 | - |
地址 | 610000四川省成都市高新区益州大道中段722号1栋1单元12层1210号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种可回溯的强化学习智能体训练方法,包括如下步骤:创建预设长度用于保存智能体的状态、状态映射的Cell、行为、奖励和done数据的字典;进行数据探索,首先从字典中选择Cell,并以被选择的Cell作为目标,return选定的目标,以目标作为新起点,选择新目标进行探索,并记录return阶段和探索阶段遇到的所有状态和行为,将所有状态映射为Cell,并将所有状态、所有Cell和行为更新到字典中;获取数据探索收集到的所有Cell和行为数据,基于强化学习算法进行学习,并更新学习算法的参数;本发明采用存档的方式来记录智能体到达过的所有状态,以目标的方式引导智能体能够回到存档中的状态;智能体回到任意状态后重新开始探索,理论上能探索到环境中所有的空间。 |
