旅游场景强化学习模拟环境构建方法、系统、设备和介质
基本信息

| 申请号 | CN202010649717.4 | 申请日 | - |
| 公开(公告)号 | CN111814050A | 公开(公告)日 | 2020-10-23 |
| 申请公布号 | CN111814050A | 申请公布日 | 2020-10-23 |
| 分类号 | G06F16/9535(2019.01)I | 分类 | 计算;推算;计数; |
| 发明人 | 王育添;江文斌;李健 | 申请(专利权)人 | 上海携程国际旅行社有限公司 |
| 代理机构 | 上海弼兴律师事务所 | 代理人 | 薛琦;林嵩 |
| 地址 | 200335上海市长宁区金钟路968号16号楼10F | ||
| 法律状态 | - | ||
摘要

| 摘要 | 本发明公开了一种旅游场景强化学习模拟环境构建方法、系统、设备和介质,其中旅游场景强化学习模拟环境构建方法包括以下步骤:抽取用户对旅游产品的历史行为数据;对历史行为数据进行session划分;奖励函数确定和用户行为模型估计;输出模拟环境。通过旅游场景强化学习模拟环境的构建,智能体可以在一个类似真实的旅游平台上,与虚拟用户进行多轮交互。在交互过程中,根据用户行为反馈不断更新策略,使智能体收敛到生成匹配用户动态偏好的最优策略。模拟环境中的模型训练将有助于减少线上的探索成本,为线上强化学习模型提供良好的初始化。 |





