视频数据处理方法、装置、电子设备和计算机可读介质

基本信息

申请号 CN202010123747.1 申请日 -
公开(公告)号 CN111340234A 公开(公告)日 2020-06-26
申请公布号 CN111340234A 申请公布日 2020-06-26
分类号 G06N20/00(2019.01)I 分类 -
发明人 陈志熙 申请(专利权)人 南京星火技术有限公司
代理机构 北京合智同创知识产权代理有限公司 代理人 李杰
地址 210032江苏省南京市江北新区星火路17号创智大厦14楼
法律状态 -

摘要

摘要 本申请公开了一种视频数据处理方法、装置、电子设备和计算机可读介质。该方法包括:基于预设的奖励预测模型,对视频数据中,执行主体执行目标任务时的任务环境进行特征提取,生成任务环境的分布激励;基于预设的强化学习模型,根据任务环境,生成任务指令,根据任务指令指导执行主体执行目标任务,得到任务结果;基于预设的奖励评估函数,对任务结果进行评估,生成任务激励,并根据任务激励,对奖励预测模型的参数进行调整;根据分布激励,对强化学习模型的参数进行调整。籍此,通过强化学习模型生成的任务激励对奖励预测模型的参数进行调整,优化奖励预测模型;通过奖励预测模型生成的分布激励对强化学习模型的参数进行调整,优化强化学习模型。