基于实体的词法检查方法与装置和计算机设备及存储介质

基本信息

申请号 CN202010677539.6 申请日 -
公开(公告)号 CN111651978A 公开(公告)日 2020-09-11
申请公布号 CN111651978A 申请公布日 2020-09-11
分类号 G06F40/253(2020.01)I 分类 计算;推算;计数;
发明人 李勇斌;郑海涛;冯勤宇;赵从志;卢炳干 申请(专利权)人 深圳市智搜信息技术有限公司
代理机构 深圳市精英专利事务所 代理人 深圳市智搜信息技术有限公司
地址 518000广东省深圳市南山区西丽街道新东路1号清华信息港科研楼9楼905
法律状态 -

摘要

摘要 本发明公开了一种基于实体的词法检查方法与装置和计算机设备及存储介质,方法包括:计算相邻三个词的词级N‑Gram得分,和相邻三个字的字级N‑Gram得分;通过计算词级N‑Gram得分与字级N‑Gram得分的平均绝对离差,将值大于阈值的字词初步识别为错误字词,创建错误字词集;统计所述错误字词并创建候选集合,将所述候选集合中的候选字词分别按照顺序代入原文,替换之前的错别字词;对组合成的新文本进行分词、分字,使用词级N‑Gram计算词级的句子困惑度,使用字级N‑Gram计算字级的句子困惑度,计算句子的字词平均困惑度;对所述候选集合的候选字词计算困惑度之后,与原句子的困惑度进行比较,选取最小困惑度的候选字词作为最佳候选字词。