用于语音合成语料库的建立方法、装置、设备和介质
基本信息
申请号 | CN202110616148.8 | 申请日 | - |
公开(公告)号 | CN113362800A | 公开(公告)日 | 2021-09-07 |
申请公布号 | CN113362800A | 申请公布日 | 2021-09-07 |
分类号 | G10L13/02(2013.01)I;G10L13/04(2013.01)I;G10L15/26(2006.01)I | 分类 | 乐器;声学; |
发明人 | 石强;孙见青;梁家恩 | 申请(专利权)人 | 深圳云知声信息技术有限公司 |
代理机构 | - | 代理人 | - |
地址 | 518057广东省深圳市南山区西丽街道朗山路11号同方信息港C栋6A | ||
法律状态 | - |
摘要
摘要 | 本发明涉及一种用于语音合成语料库的建立方法、装置、设备和介质,该方法包括:获取第一文本以及第一文本对应的语音数据;切分语音数据得到分割语料;所述分割语料得到第二文本;对比第二文本和第一文本,筛选得到筛选文本;根据筛选文本确定筛选音频;提取筛选音频的基频值;计算基频值的均值和方差;聚类均值和方差得到聚类结果;根据聚类结果将筛选文本及其对应的语音数据分成k个语料库。本申请实施例中采取先切分后识别的方式,可以提高文本识别准确率,并且将获取得到的第一文本作为参考去除识别错误的情况;由于基频与语音风格和音色具有强相关性,使用句子级的基频均值方差进行分类,有效的保证类内语音风格与音色的一致性。 |
