一种海量音频数据中的字符串快速模糊匹配算法

基本信息

申请号 CN201610848974.4 申请日 -
公开(公告)号 CN106528599B 公开(公告)日 2019-05-14
申请公布号 CN106528599B 申请公布日 2019-05-14
分类号 G06F16/683(2019.01)I; G06F16/9032(2019.01)I 分类 计算;推算;计数;
发明人 田学红; 朱晓明; 于拾全 申请(专利权)人 深圳凡豆信息科技有限公司
代理机构 广州恒华智信知识产权代理事务所(普通合伙) 代理人 深圳凡豆信息科技有限公司
地址 518000 广东省深圳市南山区前海深港青年梦工场7栋110室
法律状态 -

摘要

摘要 本发明公开了一种字符串的快速模糊匹配算法。本发明首先对数据库中的文本进行数据的预处理,从而获得统计模型,并通过Hash建立索引。输入文本是一个较短的字符串,本发明遍历其中所有汉字,激活有限字符全集中对应汉字的位置。将有限字符全集的激活状态映射到每一个标签上,从而达到过滤标签的目的。对过滤出来的少量标签进行与文本的匹配,用DTW算法进行近似字符串匹配。根据匹配近似度结果进行打分,并排序,返回搜索到的结果。本发明通过高效的标签过滤方法,大幅度地提升了字符串匹配算法的计算效率;同时在对输入文本进行匹配的过程中,达到模糊匹配的效果,对于模糊语言也具有很好的匹配性能。