数据提取方法、装置及计算机可读存储介质

基本信息

申请号 CN201811360836.7 申请日 -
公开(公告)号 CN109543085A 公开(公告)日 2019-03-29
申请公布号 CN109543085A 申请公布日 2019-03-29
分类号 G06F16/951(2019.01)I; G06N3/04(2006.01)I 分类 计算;推算;计数;
发明人 李栋; 陈昊; 姜雪平; 黄飞; 沈涵拯 申请(专利权)人 中电科嘉兴新型智慧城市科技发展有限公司
代理机构 北京酷爱智慧知识产权代理有限公司 代理人 向霞
地址 314000 浙江省嘉兴市南湖区亚太路705号创新大厦B段22F
法律状态 -

摘要

摘要 本发明实施例公开了一种数据提取方法、装置及计算机可读存储介质,方法包括:通过http方式请求多个待爬取页面的URL,并通过渲染服务器对多个待爬取页面进行渲染;下载渲染后的多个待爬取页面,以得到多个页面数据;对多个页面数据进行智能分析,以得到待爬取数据位置;根据待爬取数据位置提取目标数据。通过本发明实施例可以快速实现大量网页数据的爬取,解决了现有技术中需要手动为每个页面编写爬取规则的问题,降低了开发难度和开发时间,满足了大量数据爬取的需求。