一种基于UNET结构利用传声器阵列语音源定位方法
基本信息
申请号 | 2020110965745 | 申请日 | - |
公开(公告)号 | CN112269158A | 公开(公告)日 | 2021-01-26 |
申请公布号 | CN112269158A | 申请公布日 | 2021-01-26 |
分类号 | G01S3/80(2006.01)I; | 分类 | 测量;测试; |
发明人 | 王浩;卢晶;刘晓峻;狄敏;姚志强 | 申请(专利权)人 | 南京南大电子智慧型服务机器人研究院有限公司 |
代理机构 | 南京瑞弘专利商标事务所(普通合伙) | 代理人 | 彭雄 |
地址 | 210019江苏省南京市建邺区白龙江东街8号科技综合A区1幢14层 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种基于UNET结构利用传声器阵列语音源定位方法,步骤如下:(1)生成训练样本,得到时‑频域信号,并获得功率包络;(2)对时‑频域信号的每个时‑频点,计算对应的语音能量占比和直达路径语音能量占比;(3)利用步骤(1)生成的样本训练多任务UNET结构的神经网络;(4)利用已训练的多任务UNET结构的神经网络预测待测含噪信号每个时‑频点语音直达声能量占比;(5)对判断语音直达声能量占比较高的时‑频点,应用定位方法,得到定位结果。本发明的语音声源定位方法,能够使得在高混响及高干扰的环境中,有效去除干扰和混响的影响,获得精确度和鲁棒性较高的结果。 |
