一种基于最优解的智能体残障设备投放方法

基本信息

申请号 CN202111161240.6 申请日 -
公开(公告)号 CN114021775A 公开(公告)日 2022-02-08
申请公布号 CN114021775A 申请公布日 2022-02-08
分类号 G06Q10/04(2012.01)I;G06Q10/06(2012.01)I;G06Q50/26(2012.01)I;G06N3/08(2006.01)I;G06N20/00(2019.01)I 分类 计算;推算;计数;
发明人 唐源;王魁;唐小艳;刘玲意 申请(专利权)人 成都海天数联科技有限公司
代理机构 北京天奇智新知识产权代理有限公司 代理人 肖会
地址 610000四川省成都市高新区天华一路99号B区7栋314、315号
法律状态 -

摘要

摘要 本发明涉及一种基于最优解的智能体残障设备投放方法,包括计算得到智能体选择的动作和Q值并进行初始化操作;进行总回合中的一个片段操作,将当前状态初始化为S0,在概率为ε时选择最大Q值对应的动作,否则选择一个随机动作,并执行该动作获得奖励后进入下一个状态;将当前状态、执行的动作、奖励和下一个状态作为一个四元组集合存入经验池,并更新sum‑tree的父节点;判断当前Q值与最优值之间的误差是否在阈值范围内,得到最终智能体选择的动作和Q值。本发明的优点在于:奖励进行分解,每一个智能体的奖励不仅包含自己的奖励,还包括所有智能体共同的奖励,提升了智能体之间的协作性,对智能体学习起到促进作用同时能满足优化目标。