一种基于最优解的智能体残障设备投放方法
基本信息
申请号 | CN202111161240.6 | 申请日 | - |
公开(公告)号 | CN114021775A | 公开(公告)日 | 2022-02-08 |
申请公布号 | CN114021775A | 申请公布日 | 2022-02-08 |
分类号 | G06Q10/04(2012.01)I;G06Q10/06(2012.01)I;G06Q50/26(2012.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 唐源;王魁;唐小艳;刘玲意 | 申请(专利权)人 | 成都海天数联科技有限公司 |
代理机构 | 北京天奇智新知识产权代理有限公司 | 代理人 | 肖会 |
地址 | 610000四川省成都市高新区天华一路99号B区7栋314、315号 | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种基于最优解的智能体残障设备投放方法,包括计算得到智能体选择的动作和Q值并进行初始化操作;进行总回合中的一个片段操作,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum‑tree的父节点;判断当前Q值与最优值之间的误差是否在阈值范围内,得到最终智能体选择的动作和Q值。本发明的优点在于:奖励进行分解,每一个智能体的奖励不仅包含自己的奖励,还包括所有智能体共同的奖励,提升了智能体之间的协作性,对智能体学习起到促进作用同时能满足优化目标。 |
