一种网络训练的方法、控制方法以及装置
基本信息
申请号 | CN202111432347.X | 申请日 | - |
公开(公告)号 | CN114118276A | 公开(公告)日 | 2022-03-01 |
申请公布号 | CN114118276A | 申请公布日 | 2022-03-01 |
分类号 | G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 熊方舟;吴思雷;丁曙光;张羽;周奕达;樊明宇;任冬淳 | 申请(专利权)人 | 北京触达无界科技有限公司 |
代理机构 | 北京曼威知识产权代理有限公司 | 代理人 | 方志炜 |
地址 | 101399北京市顺义区高丽营镇文化营村北(临空二路1号科技创新功能区) | ||
法律状态 | - |
摘要
摘要 | 本说明书公开了一种网络训练的方法、控制方法以及装置,首先,获取训练样本。其次,将训练样本输入到策略网络中,得到采集设备在第一历史时刻需要执行的第一行驶策略,并确定第一行驶策略对应的评价值。而后,基于第一行驶策略,确定采集设备在第二历史时刻需要执行的第二行驶策略,并确定第二行驶策略对应的评价值,以及基于第一行驶策略,确定采集设备在第二历史时刻对应的惩罚值。最后,根据第二行驶策略对应的评价值和惩罚值,确定针对第一行驶策略的期望评价值,并以第一行驶策略对应的评价值向期望评价值逼近为优化目标,对策略网络进行训练。本方法可以降低了无人设备与周围障碍物发生碰撞的概率,保证了无人设备的安全行驶。 |
