基于深度强化学习的机器人行走控制方法、系统及介质

基本信息

申请号 CN202010393932.2 申请日 -
公开(公告)号 CN111580385A 公开(公告)日 2020-08-25
申请公布号 CN111580385A 申请公布日 2020-08-25
分类号 G05B13/02(2006.01)I;B62D57/032(2006.01)I 分类 -
发明人 杨传宇;蒲灿 申请(专利权)人 深圳阿米嘎嘎科技有限公司
代理机构 北京酷爱智慧知识产权代理有限公司 代理人 深圳阿米嘎嘎科技有限公司
地址 518102广东省深圳市宝安区西乡街道共乐社区银田工业区西发小区鼎盛大厦A座601b-5
法律状态 -

摘要

摘要 本发明提供的基于深度强化学习的机器人行走控制方法,设置奖励机制;构建多专家神经网络;所述多专家神经网络包括一个顶层网络和至少一个底层网络;利用所述奖励机制和采集的样本数据对顶层网络进行训练;在机器人运行过程中,顶层网络根据训练结果和机器人实时测量到的数据对底层网络的输出进行融合,并根据融合结果输出控制指令,将所述控制指令发送给机器人,控制机器人中关节的电机。该方法可以在不同的专家网络之间进行连续切换,增加了组合的多样性,改善现有机器人运动步态非对称、非自然的缺陷。该方法将人类动作捕捉获得的行走步态作为训练学习的参考对象,能让多专家神经网络更快地收敛到像人一样自然的周期性对称行走策略。