一种错别字监测方法及系统
基本信息
申请号 | CN201710946362.3 | 申请日 | - |
公开(公告)号 | CN107679036A | 公开(公告)日 | 2018-02-09 |
申请公布号 | CN107679036A | 申请公布日 | 2018-02-09 |
分类号 | G06F17/27 | 分类 | 计算;推算;计数; |
发明人 | 周金娟;王治平 | 申请(专利权)人 | 湖南网数科技有限公司 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 南京网数信息科技有限公司;湖南网数科技有限公司 |
地址 | 211100 江苏省南京市江宁区科学园芝兰路18号 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种错别字监测方法,方法包括:构建错别字词库;对目标网站进行数据采集,获得网站数据;对获得的网站数据进行预处理、网页解析以及去噪,得到文本内容;对文本内容进行分词处理,得到单独的词;基于错别字词库构建AC自动机字典树,并生成缓存;构建上下文语境分析模型;根据AC字典树缓存和上下文语境分析模型进行错别字识别,输出错别字识别结果,本发明能够有效的提高错别字的监测准确率。 |
