一种可回溯的强化学习智能体训练方法

基本信息

申请号 CN202210096139.5 申请日 -
公开(公告)号 CN114511096A 公开(公告)日 2022-05-17
申请公布号 CN114511096A 申请公布日 2022-05-17
分类号 G06N20/00(2019.01)I;G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 尹学渊;邱良良 申请(专利权)人 成都潜在人工智能科技有限公司
代理机构 成都睿道专利代理事务所(普通合伙) 代理人 -
地址 610000四川省成都市高新区益州大道中段722号1栋1单元12层1210号
法律状态 -

摘要

摘要 本发明提供一种可回溯的强化学习智能体训练方法,包括如下步骤:创建预设长度用于保存智能体的状态、状态映射的Cell、行为、奖励和done数据的字典;进行数据探索,首先从字典中选择Cell,并以被选择的Cell作为目标,return选定的目标,以目标作为新起点,选择新目标进行探索,并记录return阶段和探索阶段遇到的所有状态和行为,将所有状态映射为Cell,并将所有状态、所有Cell和行为更新到字典中;获取数据探索收集到的所有Cell和行为数据,基于强化学习算法进行学习,并更新学习算法的参数;本发明采用存档的方式来记录智能体到达过的所有状态,以目标的方式引导智能体能够回到存档中的状态;智能体回到任意状态后重新开始探索,理论上能探索到环境中所有的空间。