基于深度强化学习的实时集中式无线网络调度方法和设备
基本信息
申请号 | CN202111327752.5 | 申请日 | - |
公开(公告)号 | CN114189937A | 公开(公告)日 | 2022-03-15 |
申请公布号 | CN114189937A | 申请公布日 | 2022-03-15 |
分类号 | H04W72/04(2009.01)I;H04W24/02(2009.01)I;H04W24/06(2009.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 电通信技术; |
发明人 | 王琪;何晨涛;黄建辉;徐勇军 | 申请(专利权)人 | 中国科学院计算技术研究所 |
代理机构 | 北京律诚同业知识产权代理有限公司 | 代理人 | 祁建国 |
地址 | 100080北京市海淀区中关村科学院南路6号 | ||
法律状态 | - |
摘要
摘要 | 本发明提出一种基于深度强化学习的实时集中式无线网络调度方法和系统,包括:获取由一个接入点和多个用户节点互连组成的无线网络,在每个时隙,接入点根据所有数据流对应的发送队列信息,得到各数据流的状态,集合所有数据流的状态构成当前时隙的环境状态,接入点获取所有数据流的流量模型与链路质量作为环境特征信息,将环境状态和环境特征信息输入至决策模型,接入点执行决策模型输出结果对应的调度决策;接入点执行调度决策后,收到网络环境的反馈;将交互信息和环境状态和环境特征信息作为经验,存储至子区域;从经验回放池中抽取经验,以训练更新当前决策模型。本发明训练时间不会随数据流数量增加而快速增长,能够快速的收敛到最优实时吞吐量。 |
