一种音频图像采集设备及说话人定位及语音分离方法
基本信息
申请号 | CN202011016408.X | 申请日 | - |
公开(公告)号 | CN112951257A | 公开(公告)日 | 2021-06-11 |
申请公布号 | CN112951257A | 申请公布日 | 2021-06-11 |
分类号 | G10L21/02;G10L21/0216 | 分类 | 乐器;声学; |
发明人 | 陈崇军 | 申请(专利权)人 | 上海译会信息科技有限公司 |
代理机构 | 北京科亿知识产权代理事务所(普通合伙) | 代理人 | 汤东凤 |
地址 | 200333 上海市普陀区同普路1175弄3号1楼199-119室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了录音录像产品领域的一种音频图像采集设备及说话人定位及语音分离方法,包括双摄像头、还包括4麦克风阵列的音频及图像采集设备;该方法包括以下步骤:采集设备将数据采集到后,通过GCC方法对多声源进行初步定向,再使用Viola‑Jones人脸检测算法对说话人进行检测判别,在双目视觉基础上得到说话人相对采集设备的方向以及距离信息;并使用子带功率谱熵特征来实现语音端点检测,用于提高音频定向方法的性能;通过GSC方法增强目标说话人方向的语音信号,拟制其他方向上的语音信号,再使用维纳滤波器进一步去除残留噪声,优化语音。本发明对目标声源可进行准确估计和定位,极大降低干扰声源造成声源定向的错误率,进一步优化了语音分离系统。 |
