旅游场景强化学习模拟环境构建方法、系统、设备和介质
基本信息
申请号 | CN202010649717.4 | 申请日 | - |
公开(公告)号 | CN111814050A | 公开(公告)日 | 2020-10-23 |
申请公布号 | CN111814050A | 申请公布日 | 2020-10-23 |
分类号 | G06F16/9535(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 王育添;江文斌;李健 | 申请(专利权)人 | 上海携程国际旅行社有限公司 |
代理机构 | 上海弼兴律师事务所 | 代理人 | 薛琦;林嵩 |
地址 | 200335上海市长宁区金钟路968号16号楼10F | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质,其中旅游场景强化学习模拟环境构建方法包括以下步骤:抽取用户对旅游产品的历史行为数据;对历史行为数据进行session划分;奖励函数确定和用户行为模型估计;输出模拟环境。通过旅游场景强化学习模拟环境的构建,智能体可以在一个类似真实的旅游平台上,与虚拟用户进行多轮交互。在交互过程中,根据用户行为反馈不断更新策略,使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本,为线上强化学习模型提供良好的初始化。 |
