一种强化学习训练方法及基于强化学习的决策方法专利查询专利号|摘要-满商公司网

一种强化学习训练方法及基于强化学习的决策方法

基本信息

摘要

摘要	本发明提供一种强化学习训练方法及基于强化学习的决策方法，其中，强化学习模型训练方法，包括如下步骤：获取多组历史状态数据；将每一组历史状态数据输入至强化学习模型，得到初步决策数据；将所述每一组历史状态数据和所述初步决策数据输入至预先建立的贝叶斯神经网络模型，得到状态变化量以及奖励值，所述状态量变化值为当前状态数据与下一状态数据的差值；根据所述每一组历史状态数据以及对应的初步决策数据、状态变化量以及奖励值更新所述强化学习模型的模型参数。通过实施本发明，能够增加强化学习模型训练样本量，提高强化学习效果，提高动态决策规划结果的准确性。