一种错别字监测方法及系统

基本信息

申请号 CN201710946362.3 申请日 -
公开(公告)号 CN107679036A 公开(公告)日 2018-02-09
申请公布号 CN107679036A 申请公布日 2018-02-09
分类号 G06F17/27 分类 计算;推算;计数;
发明人 周金娟;王治平 申请(专利权)人 湖南网数科技有限公司
代理机构 北京集佳知识产权代理有限公司 代理人 南京网数信息科技有限公司;湖南网数科技有限公司
地址 211100 江苏省南京市江宁区科学园芝兰路18号
法律状态 -

摘要

摘要 本发明提供了一种错别字监测方法,方法包括:构建错别字词库;对目标网站进行数据采集,获得网站数据;对获得的网站数据进行预处理、网页解析以及去噪,得到文本内容;对文本内容进行分词处理,得到单独的词;基于错别字词库构建AC自动机字典树,并生成缓存;构建上下文语境分析模型;根据AC字典树缓存和上下文语境分析模型进行错别字识别,输出错别字识别结果,本发明能够有效的提高错别字的监测准确率。