旅游场景强化学习模拟环境构建方法、系统、设备和介质

基本信息

申请号 CN202010649717.4 申请日 -
公开(公告)号 CN111814050A 公开(公告)日 2020-10-23
申请公布号 CN111814050A 申请公布日 2020-10-23
分类号 G06F16/9535(2019.01)I 分类 计算;推算;计数;
发明人 王育添;江文斌;李健 申请(专利权)人 上海携程国际旅行社有限公司
代理机构 上海弼兴律师事务所 代理人 薛琦;林嵩
地址 200335上海市长宁区金钟路968号16号楼10F
法律状态 -

摘要

摘要 本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质,其中旅游场景强化学习模拟环境构建方法包括以下步骤:抽取用户对旅游产品的历史行为数据;对历史行为数据进行session划分;奖励函数确定和用户行为模型估计;输出模拟环境。通过旅游场景强化学习模拟环境的构建,智能体可以在一个类似真实的旅游平台上,与虚拟用户进行多轮交互。在交互过程中,根据用户行为反馈不断更新策略,使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本,为线上强化学习模型提供良好的初始化。