自动提取列表数据的方法、系统、存储介质及电子设备

基本信息

申请号 CN202010802593.9 申请日 -
公开(公告)号 CN112052368A 公开(公告)日 2020-12-08
申请公布号 CN112052368A 申请公布日 2020-12-08
分类号 G06F16/951(2019.01)I;G06F16/958(2019.01)I 分类 计算;推算;计数;
发明人 杨鑫辉 申请(专利权)人 北京新橙长科技有限公司
代理机构 北京市万慧达律师事务所 代理人 黄玉东
地址 100084北京市朝阳区惠河南街礼安门A座
法律状态 -

摘要

摘要 本发明公开自动提取列表数据的方法、系统、存储介质及电子设备,其中,该方法包括:获取页面中所有可点击的元素的几何信息及路径,同时获取页面的几何信息;依据路径的层级对所有元素进行分类聚合,得到至少一个列表;根据列表中元素的几何信息筛选出所有竖向列表,同时得到每个竖向列表的几何信息;基于竖向列表的几何信息、竖向列表中每个元素的几何信息以及页面的几何信息得到目标数据列表,并提取目标数据列表中元素的信息。该系统采用上述方法,实现了对网页中目标数据列表的数据进行自动准确提取。