增强交通模拟器真实性的逆强化学习方法及系统专利查询专利号|摘要-满商公司网

增强交通模拟器真实性的逆强化学习方法及系统

基本信息

摘要

摘要	本发明提供了一种增强交通模拟器真实性的逆强化学习方法及系统，包括：通过生成器初始化一个轨迹动作策略；结合当前环境，生成多个智能体的轨迹数据；将轨迹数据与预设的专家轨迹数据混合，将混合轨迹数据输入判别器，训练判别器区分专家轨迹数据，训练的目标是最大化奖励函数；将奖励函数输入生成器，生成器得到新的轨迹动作策略；用新的轨迹动作策略生成多个智能体的轨迹数据，并与预设的专家轨迹数据混合及训练判别器，直至收敛；交通模拟器根据最终的奖励函数和轨迹动作策略进行交通模拟。本发明能够推断真实世界车辆的奖励函数，它使我们能够在不同的交通环境下优化策略，具有良好的可扩展能力。