训练数据的筛选方法、装置、设备和存储介质

基本信息

申请号 CN202110927090.9 申请日 -
公开(公告)号 CN113496698A 公开(公告)日 2021-10-12
申请公布号 CN113496698A 申请公布日 2021-10-12
分类号 G10L15/06(2013.01)I;G10L15/08(2006.01)I;G10L15/16(2006.01)I;G10L15/22(2006.01)I;G10L25/03(2013.01)I;G10L25/51(2013.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 乐器;声学;
发明人 关海欣;梁家恩 申请(专利权)人 云知声智能科技股份有限公司
代理机构 - 代理人 -
地址 100096北京市海淀区西三旗建材城内1幢一层101号
法律状态 -

摘要

摘要 本发明涉及一种训练数据的筛选方法、装置、设备和存储介质,方法包括:将获取的待筛选数据输入预先构建的语音活动检测模型进行检测,得到待筛选数据的语音帧和噪音帧;根据获取的语音帧级平均能量和噪音帧级平均能量,确定待筛选数据的信噪比;若信噪比大于第一预设阈值,对待筛选数据进行混响抑制,得到抑制数据;根据语音帧级平均能量和获取的抑制数据的平均能量,确定混响分量的平均能量;根据混响分量的平均能量和语音帧级平均能量,确定混响占比;若混响占比小于第二预设阈值,保留待筛选数据,实现了自动筛选训练数据,提高了训练数据的筛选效率。