一种强化学习训练方法及基于强化学习的决策方法

基本信息

申请号 CN202011451511.7 申请日 -
公开(公告)号 CN112580801A 公开(公告)日 2021-03-30
申请公布号 CN112580801A 申请公布日 2021-03-30
分类号 G06N3/08(2006.01)I;G06N3/04(2006.01)I 分类 计算;推算;计数;
发明人 刘震;王闯;周兴;李华 申请(专利权)人 广州优策科技有限公司
代理机构 北京三聚阳光知识产权代理有限公司 代理人 李红团
地址 511457广东省广州市南沙区南沙街进港大道8号1107房
法律状态 -

摘要

摘要 本发明提供一种强化学习训练方法及基于强化学习的决策方法,其中,强化学习模型训练方法,包括如下步骤:获取多组历史状态数据;将每一组历史状态数据输入至强化学习模型,得到初步决策数据;将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型,得到状态变化量以及奖励值,所述状态量变化值为当前状态数据与下一状态数据的差值;根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明,能够增加强化学习模型训练样本量,提高强化学习效果,提高动态决策规划结果的准确性。