网页中的目标对象提取方法、装置、电子设备
基本信息
申请号 | CN202011349069.7 | 申请日 | - |
公开(公告)号 | CN112395418A | 公开(公告)日 | 2021-02-23 |
申请公布号 | CN112395418A | 申请公布日 | 2021-02-23 |
分类号 | G06F16/35(2019.01)I; | 分类 | 计算;推算;计数; |
发明人 | 张浩波;张学哲;王小凤 | 申请(专利权)人 | 上海携宁计算机科技股份有限公司 |
代理机构 | 上海晨皓知识产权代理事务所(普通合伙) | 代理人 | 成丽杰 |
地址 | 200030上海市徐汇区乐山路33号403室 | ||
法律状态 | - |
摘要
摘要 | 本发明实施例涉及数据处理领域,公开了网页中的目标对象提取方法、装置、电子设备、存储介质。本发明中,获取网页的子表格;其中,所述子表格为所述网页中未嵌套表格的表格;根据所述子表格中各单元格的文本属性值和合并单元格属性值获取二维表数据;其中,所述二维表数据的行数据中的各拆分单元格数据为预设字符串或文本属性值,所述拆分单元格数据的个数根据所述合并单元格属性值确定;根据所述二维表数据提取网页中的目标对象。本实施例减少了读取合并单元格时,数据的重复,从而提高了实体提取的准确度,另外,以文本属性值读取网页的表格数据,从而保证了读取的数值的精度。 |
