一种海量音频数据中的字符串快速模糊匹配算法专利查询专利号|摘要-满商公司网

一种海量音频数据中的字符串快速模糊匹配算法

基本信息

摘要

摘要	本发明公开了一种字符串的快速模糊匹配算法。本发明首先对数据库中的文本进行数据的预处理，从而获得统计模型，并通过Hash建立索引。输入文本是一个较短的字符串，本发明遍历其中所有汉字，激活有限字符全集中对应汉字的位置。将有限字符全集的激活状态映射到每一个标签上，从而达到过滤标签的目的。对过滤出来的少量标签进行与文本的匹配，用DTW算法进行近似字符串匹配。根据匹配近似度结果进行打分，并排序，返回搜索到的结果。本发明通过高效的标签过滤方法，大幅度地提升了字符串匹配算法的计算效率；同时在对输入文本进行匹配的过程中，达到模糊匹配的效果，对于模糊语言也具有很好的匹配性能。