话者分离方法、装置、电子设备和存储介质

基本信息

申请号 CN202111530309.8 申请日 -
公开(公告)号 CN114187917A 公开(公告)日 2022-03-15
申请公布号 CN114187917A 申请公布日 2022-03-15
分类号 G10L17/02(2013.01)I;G10L21/0216(2013.01)I;G10L21/0272(2013.01)I;G06V40/10(2022.01)I 分类 乐器;声学;
发明人 刘文超;殷保才;李渊强;程虎 申请(专利权)人 科大讯飞股份有限公司
代理机构 北京路浩知识产权代理有限公司 代理人 程琛
地址 230088安徽省合肥市高新开发区望江西路666号
法律状态 -

摘要

摘要 本发明提供一种话者分离方法、装置、电子设备和存储介质,所述方法包括:对视频帧进行人员检测,得到视频帧中人员的人员位置;对视频帧对应的音频段进行声源定位,得到声源位置;基于人员位置和声源位置之间的相对位置关系,对音频段进行话者分离。本发明提供的话者分离方法、装置、电子设备和存储介质,可以避免环境噪声和不同角色话者声纹特征差异程度的影响,进而可以基于人员位置和声源位置之间的相对位置关系,准确对音频段进行话者分离。