数据提取方法、装置及计算机可读存储介质
基本信息
申请号 | CN201811360836.7 | 申请日 | - |
公开(公告)号 | CN109543085A | 公开(公告)日 | 2019-03-29 |
申请公布号 | CN109543085A | 申请公布日 | 2019-03-29 |
分类号 | G06F16/951(2019.01)I; G06N3/04(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 李栋; 陈昊; 姜雪平; 黄飞; 沈涵拯 | 申请(专利权)人 | 中电科嘉兴新型智慧城市科技发展有限公司 |
代理机构 | 北京酷爱智慧知识产权代理有限公司 | 代理人 | 向霞 |
地址 | 314000 浙江省嘉兴市南湖区亚太路705号创新大厦B段22F | ||
法律状态 | - |
摘要
摘要 | 本发明实施例公开了一种数据提取方法、装置及计算机可读存储介质,方法包括:通过http方式请求多个待爬取页面的URL,并通过渲染服务器对多个待爬取页面进行渲染;下载渲染后的多个待爬取页面,以得到多个页面数据;对多个页面数据进行智能分析,以得到待爬取数据位置;根据待爬取数据位置提取目标数据。通过本发明实施例可以快速实现大量网页数据的爬取,解决了现有技术中需要手动为每个页面编写爬取规则的问题,降低了开发难度和开发时间,满足了大量数据爬取的需求。 |
