一种基于文本信息抽取结果的去重方法、系统以及介质
基本信息
申请号 | CN202110341478.0 | 申请日 | - |
公开(公告)号 | CN112989791A | 公开(公告)日 | 2021-06-18 |
申请公布号 | CN112989791A | 申请公布日 | 2021-06-18 |
分类号 | G06F40/205;G06F40/295;G06Q30/08 | 分类 | 计算;推算;计数; |
发明人 | 贾新;李善平;田小亮;张金坤 | 申请(专利权)人 | 北京拓普丰联信息科技股份有限公司 |
代理机构 | 郑州德勤知识产权代理有限公司 | 代理人 | 张微微 |
地址 | 100000 北京市朝阳区北四环中路华严北里健翔3号地峻峰华亭嘉园C座住宅楼2011 | ||
法律状态 | - |
摘要
摘要 | 本发明提供一种基于文本信息抽取结果的去重方法、系统以及介质,其中所述去重方法具体包括以下步骤:对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中;根据预设多重分类规则对数据集中所有文本数据记录进行细分;基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据评分进行重复文本数据记录的合并。 |
