基于通道注意力与时间卷积网络的句子级唇语识别方法

基本信息

申请号 CN202210348821.9 申请日 -
公开(公告)号 CN114694255A 公开(公告)日 2022-07-01
申请公布号 CN114694255A 申请公布日 2022-07-01
分类号 G06V40/20(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I;G06V10/82(2022.01)I 分类 计算;推算;计数;
发明人 薛峰;郭昊;李宏博;储德军;谢胤岑 申请(专利权)人 合肥工业大学
代理机构 安徽省合肥新安专利代理有限责任公司 代理人 -
地址 230009安徽省合肥市包河区屯溪路193号
法律状态 -

摘要

摘要 本发明公开了一种基于通道注意力与时间卷积网络的句子级唇语识别方法,包括:1、下载用于训练模型的数据集GRID和更具挑战性的CMLR,并对数据集进行预处理;2、搭建本发明公开的唇语识别网络,将经预处理的数据集送入到网络中进行训练,调整网络参数,得到最优的唇语识别网络模型;4、用训练好的模型对视频进行唇语识别。本发明通过对唇语视频在时域、空域的多尺度特征提取,结合注意力机制获得了高质量的唇语识别特征图,从而能提高唇语识别精准度,且其在更具挑战性的CMLR数据集上的对应评价指标优异。