迭代式大规模发音词典构建方法及装置专利查询专利号|摘要-满商公司网

迭代式大规模发音词典构建方法及装置

基本信息

摘要

摘要	本发明公开了一种迭代式大规模发音词典构建方法及装置，其中该方法包括：根据文本生数据生成词条序列；根据音频生数据生成音标序列；根据词条序列，利用G2P模型生成二元组<词条，音标>；根据音标序列，利用P2G模型生成二元组<音标，词条>；计算两个二元组之间的匹配度，并与预设匹配度进行比较，对匹配度小于预设匹配度对应的二元组<词条，音标>和二元组<音标，词条>进行鉴别性样本抽取，获得鉴别性样本；获取领域专家对鉴别性样本的标注和校正，将标注和校正后的二元组<词条，音标>和二元组<音标，词条>存入多层次大规模发音词典。本发明能够快速有效地构建大规模发音词典，提升语音识别系统的工作效率并降低人工成本。