一种网络训练的方法、控制方法以及装置

基本信息

申请号 CN202111432347.X 申请日 -
公开(公告)号 CN114118276A 公开(公告)日 2022-03-01
申请公布号 CN114118276A 申请公布日 2022-03-01
分类号 G06K9/62(2022.01)I 分类 计算;推算;计数;
发明人 熊方舟;吴思雷;丁曙光;张羽;周奕达;樊明宇;任冬淳 申请(专利权)人 北京触达无界科技有限公司
代理机构 北京曼威知识产权代理有限公司 代理人 方志炜
地址 101399北京市顺义区高丽营镇文化营村北(临空二路1号科技创新功能区)
法律状态 -

摘要

摘要 本说明书公开了一种网络训练的方法、控制方法以及装置,首先,获取训练样本。其次,将训练样本输入到策略网络中,得到采集设备在第一历史时刻需要执行的第一行驶策略,并确定第一行驶策略对应的评价值。而后,基于第一行驶策略,确定采集设备在第二历史时刻需要执行的第二行驶策略,并确定第二行驶策略对应的评价值,以及基于第一行驶策略,确定采集设备在第二历史时刻对应的惩罚值。最后,根据第二行驶策略对应的评价值和惩罚值,确定针对第一行驶策略的期望评价值,并以第一行驶策略对应的评价值向期望评价值逼近为优化目标,对策略网络进行训练。本方法可以降低了无人设备与周围障碍物发生碰撞的概率,保证了无人设备的安全行驶。