一种海量音频数据中的字符串快速模糊匹配算法
基本信息
申请号 | CN201610848974.4 | 申请日 | - |
公开(公告)号 | CN106528599B | 公开(公告)日 | 2019-05-14 |
申请公布号 | CN106528599B | 申请公布日 | 2019-05-14 |
分类号 | G06F16/683(2019.01)I; G06F16/9032(2019.01)I | 分类 | 计算;推算;计数; |
发明人 | 田学红; 朱晓明; 于拾全 | 申请(专利权)人 | 深圳凡豆信息科技有限公司 |
代理机构 | 广州恒华智信知识产权代理事务所(普通合伙) | 代理人 | 深圳凡豆信息科技有限公司 |
地址 | 518000 广东省深圳市南山区前海深港青年梦工场7栋110室 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了一种字符串的快速模糊匹配算法。本发明首先对数据库中的文本进行数据的预处理,从而获得统计模型,并通过Hash建立索引。输入文本是一个较短的字符串,本发明遍历其中所有汉字,激活有限字符全集中对应汉字的位置。将有限字符全集的激活状态映射到每一个标签上,从而达到过滤标签的目的。对过滤出来的少量标签进行与文本的匹配,用DTW算法进行近似字符串匹配。根据匹配近似度结果进行打分,并排序,返回搜索到的结果。本发明通过高效的标签过滤方法,大幅度地提升了字符串匹配算法的计算效率;同时在对输入文本进行匹配的过程中,达到模糊匹配的效果,对于模糊语言也具有很好的匹配性能。 |
