一种基于UNET结构利用传声器阵列语音源定位方法

基本信息

申请号 2020110965745 申请日 -
公开(公告)号 CN112269158A 公开(公告)日 2021-01-26
申请公布号 CN112269158A 申请公布日 2021-01-26
分类号 G01S3/80(2006.01)I; 分类 测量;测试;
发明人 王浩;卢晶;刘晓峻;狄敏;姚志强 申请(专利权)人 南京南大电子智慧型服务机器人研究院有限公司
代理机构 南京瑞弘专利商标事务所(普通合伙) 代理人 彭雄
地址 210019江苏省南京市建邺区白龙江东街8号科技综合A区1幢14层
法律状态 -

摘要

摘要 本发明公开了一种基于UNET结构利用传声器阵列语音源定位方法,步骤如下:(1)生成训练样本,得到时‑频域信号,并获得功率包络;(2)对时‑频域信号的每个时‑频点,计算对应的语音能量占比和直达路径语音能量占比;(3)利用步骤(1)生成的样本训练多任务UNET结构的神经网络;(4)利用已训练的多任务UNET结构的神经网络预测待测含噪信号每个时‑频点语音直达声能量占比;(5)对判断语音直达声能量占比较高的时‑频点,应用定位方法,得到定位结果。本发明的语音声源定位方法,能够使得在高混响及高干扰的环境中,有效去除干扰和混响的影响,获得精确度和鲁棒性较高的结果。