一种基于文本信息抽取结果的去重方法、系统以及介质

基本信息

申请号 CN202110341478.0 申请日 -
公开(公告)号 CN112989791A 公开(公告)日 2021-06-18
申请公布号 CN112989791A 申请公布日 2021-06-18
分类号 G06F40/205;G06F40/295;G06Q30/08 分类 计算;推算;计数;
发明人 贾新;李善平;田小亮;张金坤 申请(专利权)人 北京拓普丰联信息科技股份有限公司
代理机构 郑州德勤知识产权代理有限公司 代理人 张微微
地址 100000 北京市朝阳区北四环中路华严北里健翔3号地峻峰华亭嘉园C座住宅楼2011
法律状态 -

摘要

摘要 本发明提供一种基于文本信息抽取结果的去重方法、系统以及介质,其中所述去重方法具体包括以下步骤:对公共资源交易信息所在网页进行结构化抽取,将抽取结果以文本数据记录形式存储在数据集中;根据预设多重分类规则对数据集中所有文本数据记录进行细分;基于标题和预设实体字段进行组内判重,当组内存在重复文本数据记录时,基于网站类型和实体字段对重复文本数据记录进行评分,并根据评分进行重复文本数据记录的合并。