基于编辑距离的中文名词筛选方法及系统及装置及介质
基本信息
申请号 | CN202210164405.3 | 申请日 | - |
公开(公告)号 | CN114238619A | 公开(公告)日 | 2022-03-25 |
申请公布号 | CN114238619A | 申请公布日 | 2022-03-25 |
分类号 | G06F16/335(2019.01)I;G06F16/903(2019.01)I;G06F40/169(2020.01)I;G06F40/242(2020.01)I;G06F40/247(2020.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 不公告发明人 | 申请(专利权)人 | 成都数联云算科技有限公司 |
代理机构 | 成都云纵知识产权代理事务所(普通合伙) | 代理人 | 熊曦;陈婉鹃 |
地址 | 610041四川省成都市中国(四川)自由贸易试验区成都高新区吉泰五路88号3栋5层8号、9号 | ||
法律状态 | - |
摘要
摘要 | 本发明公开了基于编辑距离的中文名词筛选方法及系统及装置及介质,涉及文本处理领域,包括:构建数据字典,其中,所述数据字典中词以组为单位进行存储,每个词组均对应一个词引和多个相似词语;获得基准词,将所述基准词与所述数据字典中的词引进行匹配,若匹配成功则获得该词引对应的多个相似词语;将匹配获得的多个相似词语与所述基准词进行组合获得筛选词组;计算筛选词组中的每个词语与筛选数据集中的每个词语之间的相似度;从所述筛选数据集中筛选出所述相似度大于阈值对应的词语获得筛选结果;本发明采用数据字典,扩大名词数据筛选的范围,提高数据筛选的准确度。 |
