一种多人语音分离方法及语音分离模型的训练方法
基本信息
申请号 | CN202110917217.9 | 申请日 | - |
公开(公告)号 | CN113744753A | 公开(公告)日 | 2021-12-03 |
申请公布号 | CN113744753A | 申请公布日 | 2021-12-03 |
分类号 | G10L21/0272(2013.01)I;G10L21/028(2013.01)I;G10L25/30(2013.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 乐器;声学; |
发明人 | 姜彦吉;邱友利;张胜;彭博;郑四发 | 申请(专利权)人 | 华研慧声(苏州)电子科技有限公司 |
代理机构 | 苏州创元专利商标事务所有限公司 | 代理人 | 吴芳 |
地址 | 215000江苏省苏州市相城区高铁新城太阳路2266号5幢 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种多人语音分离方法及语音分离模型的训练方法,分离方法包括以下步骤:将混合语音数据输入编码器处理以输出三维的特征张量;对特征张量进行组归一化处理、卷积操作和分段处理,将其结果输入到自注意力块中处理,以对其进行分离函数映射,再经过第一激活函数处理、卷积操作后进行重叠操作,对其结果进行卷积操作后分别经过第二激活函数和第三激活函数的处理,以得到两个特征张量,作乘积运算后进行卷积和第四激活函数处理,并与编码器的输出进行乘积操作,以分离出不同说话人的特征数据。本发明提供的多人语音分离方法及语音分离模型的训练方法不依赖时序关系,能够很容易地进行并行计算,提升模型的训练效率。 |
