一种针对多说话人的单通道语音分离方法及系统
基本信息
申请号 | CN202110173700.0 | 申请日 | - |
公开(公告)号 | CN113053407A | 公开(公告)日 | 2021-06-29 |
申请公布号 | CN113053407A | 申请公布日 | 2021-06-29 |
分类号 | G10L21/0272;G10L21/0308;G10L25/30 | 分类 | 乐器;声学; |
发明人 | 史慧宇;欧阳鹏 | 申请(专利权)人 | 南京蕴智科技有限公司 |
代理机构 | 北京索睿邦知识产权代理有限公司 | 代理人 | 李根 |
地址 | 211100 江苏省南京市江宁区麒麟科技创新园创研路266号人工智能产业园8号楼4楼 | ||
法律状态 | - |
摘要
摘要 | 本发明提供针对多说话人的单通道语音分离方法,其包括:构建语音分离深度神经网络;获取第一编码、第二编码和第三编码;通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号;对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络;将待测试语音样本输入到训练后的语音分离深度神经网络中,获取待测试语音样本中多个语音分离信号。本发明通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。同时,本发明还提供了针对多说话人的单通道语音分离系统。 |
